BayesYY

https://www.spaceandtime.io/blog/vector-search-to-success 在 2022 年之前,如果你想快速回忆起你最喜欢的书中的特定段落或你刚刚看过的电影中的台词,你可能会转向搜索引擎。你会用精心编写的搜索词提示它,浏览返回的结果,访问包含你所需内容的 SparkNotes 或 IMDB 链接,并在页面上找到你要找的文字,这可能需要几分钟的时间。现在,你只需打开 ChatGPT,键入"Terminator 中最著名的台词是什么?"或"写出《双城记》的开篇段落",就能立即得到逐字的答案。大型语言模型 (LLM) 最简单的用途之一就是作为知识数据库。LLM 已经被训练在广泛的数据集上,这使得 ChatGPT 等接口可以很容易地提取这些信息。当你让 ChatGPT 返回电影或书籍的内容时,你实际上是利用该模型在训练过程中接触到的信息。但是,如果它没有被训练过 Terminator 剧本,或者它的权重没有给予 Dickens 作品以重要性,那会怎样呢? 为了即使在最简单的用例（如基本信息检索）中也能提供最准确和相关的结果,LLM 需要有复杂的...