技术

LLM Training Data

 LLM training data(训练数据)是指大语言模型在训练阶段所学习的海量文本语料,涵盖网页、书籍、学术论文和数据库。能否在这些来源中被呈现,是品牌在 LLM 中无需实时搜索也能被提及的基本前提。 

ChatGPT 4、Gemini 和 Claude 都基于截至某一时间点的广泛互联网语料进行训练。若品牌、概念或人物在训练数据的高权威文本中被频繁提及,模型就更有可能正确地提到它们。

你无法直接控制训练数据,但可以通过以下方式影响自身的呈现:拥有 Wikipedia 词条、被权威网络媒体报道、发布会被爬虫索引的高质量内容,以及积极参与公开的专业讨论。

常见问题

企业能否影响 LLM 对自身的认知?

可以间接影响。重点是确保自己出现在 LLM 通常训练所用的来源中:Wikipedia、主流新闻媒体、学术出版物以及权威的行业网站。

AI Search Academy 是关于 AI 搜索和可见性的独立术语表。