在2022年之前,如果你想快速回忆起你最喜欢的书中的某个特定段落,或者是刚刚看过的一部电影中的一句台词,而手头没有这本书或电影,你可能会转向搜索引擎。你会输入一个精心设计的搜索词,然后浏览返回的结果,访问看似包含答案的SparkNotes或IMDB链接,并在几分钟内找到你要找的文字。现在,你只需打开ChatGPT,输入“终结者中最著名的台词是什么?”或者“写出《双城记》的开头段落”,几秒钟内就能得到准确的答案。 大型语言模型(LLM)最简单的用途之一是作为知识数据库。LLM经过大量丰富信息的数据集训练,像ChatGPT这样的接口使得检索这些信息变得容易。例如,当你提示ChatGPT返回某部电影或书籍的内容时,你只是利用了模型在训练过程中接触到的信息的回忆能力。但如果它没有被训练过《终结者》的剧本,或者其权重没有强调狄更斯的作品呢?为了在最简单的用例中(如基本信息检索)也能提供最准确和相关的结果,LLM需要复杂的索引和检索机制,以便精确地访问广泛的信息。 理解大型语言模型(LLM)的内容生成和训练 LLM内容是通过一种称为下一个词预测的过程生成的,这确保了响应在上下文上是适当的、多...