Поиск успеха с помощью векторных технологий

Исследование роли RAG в развитии сложных LLM

Перед 2022 годом, если бы вы хотели быстро вспомнить конкретный отрывок из любимой книги или цитату из недавно просмотренного фильма без самого произведения перед глазами, вы, вероятно, обратились бы к поисковой системе. Вы бы ввели хорошо сформулированный запрос, проанализировали возвращенные результаты, посетили ссылку на SparkNotes или IMDB, которая, по вашему мнению, содержит ответ, и нашли нужный текст на странице за несколько минут. Теперь вы просто открываете ChatGPT, вводите «какая самая известная цитата из Терминатора?» или «напишите начальный отрывок из "Повести о двух городах"» и получаете точный ответ за считанные секунды.

Одним из самых простых способов использования большой языковой модели (LLM) является использование её в качестве базы данных знаний. LLM были обучены на огромных наборах данных, насыщенных информацией, которую интерфейсы вроде ChatGPT сделали легко доступной. Когда вы запрашиваете у ChatGPT возврат контента из фильма или книги, например, вы просто используете способность модели вспоминать информацию, с которой она сталкивалась во время обучения. Но что если она не была обучена на сценарии "Терминатора" или её веса не придают значения произведениям Диккенса? Чтобы предоставлять наиболее точные и релевантные результаты даже для самых простых случаев использования, таких как базовый поиск информации, LLM нуждаются в сложных механизмах индексирования и извлечения, которые могут с высокой точностью получать доступ к широкому спектру информации.

Понимание генерации контента и обучения LLM Контент

LLM генерируется через процесс, известный как предсказание следующего токена, который обеспечивает контекстуальную уместность ответов, их разнообразие и в некоторой степени отражение человеческого понимания. Вот как работает предсказание следующего токена, шаг за шагом:

Обработка ввода: Когда вы вводите запрос или вопрос, этот ввод преобразуется в токены: слова или части слов.
Понимание контекста: Модель рассматривает предоставленные токены и, основываясь на своем обучении, пытается понять контекст, который включает всё: от темы до тона вашего запроса.
Предсказание следующего токена: Используя понятый контекст, модель предсказывает, какой токен наиболее вероятен следующим. Она не просто угадывает на основе предыдущего слова; она учитывает весь контекст разговора до этого момента.
Выбор токена: Когда предсказаны возможные следующие токены, модель выбирает один. Этот выбор основывается на вероятности — токен, который наиболее вероятен следующим, исходя из данных, на которых была обучена модель. Стоит отметить, что здесь есть и элемент случайности, который помогает генерировать более разнообразные и естественно звучащие ответы.
Генерация вывода: Выбранный токен затем преобразуется обратно в читаемый текст. Если ответ не завершен (а это часто так после одного токена), процесс повторяется. Новый токен добавляется к последовательности, и модель предсказывает следующий токен на основе этого обновленного контекста.
Итеративное уточнение: Этот процесс предсказания следующего токена и добавления его к последовательности повторяется до тех пор, пока модель не достигнет точки остановки. Это может быть тогда, когда ответ достигает определенной длины, модель предсказывает токен, который обозначает конец предложения или отрывка, или когда выполнены инструкции, заложенные в запросе.

Ограничения компрессии в обучении LLM

Когда LLM предсказывает токен, она фактически извлекает и использует сжатые знания, встроенные в её веса, чтобы произвести контекстуально уместные выводы. В этом смысле обучение LLM отражает сжатие базы данных. Как и база данных оптимизируется для быстрого воспроизведения часто запрашиваемых данных, LLM предназначена для извлечения информации — конкретных интерполированных воспоминаний — из своих весов. Эта способность позволяет ей давать точные ответы на запросы о знакомом материале, с которым она сталкивалась во время обучения, аналогично запросу базы данных для хорошо индексированной информации. Однако возникают ограничения, когда модель сталкивается с менее знакомым или редким содержанием. Например, когда вы спрашиваете у LLM конкретные отрывки из Библии, она цитирует их дословно, но не может дословно цитировать любую концепцию, которую она не видела многократно во время обучения, так как веса, связанные с этой концепцией, слишком незначительны. В этом смысле LLM также аналогична базе данных. Как и база данных может вернуть только те данные, которые были явно сохранены в ней, LLM может испытывать трудности с генерацией контента по темам, которые она не видела обширно во время обучения.

Конечно, LLM выходят за рамки этого сравнения, так как у них есть внутренняя модель мира, которая позволяет им "понимать" вещи не только через поиск. Однако это упрощение помогает нам понять некоторые ключевые ограничения в том, как LLM обучены генерировать контент.

Дополнительные ограничения обучения LLM

Кроме того, система предсказания следующего токена имеет другие внутренние ограничения, вытекающие из её фундаментального подхода к генерации текста:

Размер окна контекста: Одно из основных ограничений — размер окна контекста модели — максимальное количество текста (в токенах), которое модель может учитывать при предсказании. Для многих моделей, включая ранние версии GPT, это окно не достаточно велико, чтобы поддерживать контекст в длительных разговорах или документах, что может привести к потере связности в более длинных текстах или сложных обсуждениях, требующих поддержания контекста за пределами непосредственных предыдущих токенов.
Обобщение против специфичности: Хотя эти модели обучены на огромных наборах данных, их способность обобщать это обучение иногда может приводить к генерации общих или не вполне релевантных ответов. Они могут не дотягивать до создания высоко специфичных или нюансированных ответов, требующих детального понимания или актуальных знаний за пределами их учебных данных.
Недоступность внешних знаний: Модели предсказания следующих токенов ограничены информацией, содержащейся в их учебных наборах данных. Они не могут получить доступ к новой информации после обучения, что означает, что они могут быстро устаревать или не иметь текущего контекста, такого как недавние события, открытия или трендовые темы.
Повторяемость и предсказуемость: Алгоритмическая природа предсказания следующих токенов иногда может приводить к генерации повторяющегося или предсказуемого текста. Поскольку модель часто предпочитает токены, которые статистически более вероятны в данном контексте, она может попасть в циклы или предпочитать общие фразы, снижая вариативность вывода.

Объяснение RAG (обогащенная генерация с извлечением)

Как упоминалось ранее, LLM генерируют ответы на основе весов, которые они присваивают различным аспектам данных во время обучения. Эти веса отражают, насколько важны или значимы различные элементы входных данных, по мнению модели. Если запрос пользователя включает элементы, которые не были значительно представлены в учебных данных, модель может не справиться с генерацией точного или релевантного ответа.

Когда разговор превышает окно контекста LLM или запрос превышает предел значимых весов в собственном учебном наборе данных LLM (то есть модель не может вспомнить точный ответ, который ищет пользователь), модель обычно полагается на внешнюю базу данных поиска по векторам, что позволяет ей искать релевантный контекст или свежие данные, которые могут быть добавлены к запросу пользователя. Этот процесс известен как обогащенная генерация с извлечением (RAG).

"Поиск успеха с помощью векторных технологий"

Процесс RAG возможен благодаря базе данных поиска по векторам: продвинутому типу базы данных, которая хранит и управляет данными в виде векторов. Эти векторы представляют данные в многомерном пространстве, где каждое измерение захватывает некоторый аспект смысла данных, что позволяет представлять сложные отношения и атрибуты. В контексте текста и языка базы данных поиска по векторам используют такие техники, как встраивание, чтобы преобразовать текст в числовые векторы. Это преобразование позволяет системе измерять семантические сходства между различными частями текста, вычисляя расстояния между соответствующими векторами в этом многомерном пространстве.

Во время RAG как запрос (то есть ввод пользователя в LLM), так и хранимая информация (например, статьи, документы или предложения) преобразуются в векторы с использованием встраивания текста. Эти встраивания преобразуют текстовые данные в числовые векторы, где схожие смыслы отображаются в близкие точки в векторном пространстве. База данных затем вычисляет расстояния между вектором запроса и векторами хранимых данных, чтобы определить, насколько близко

Эти ближайшие соседи предоставляют контекстуально релевантную дополнительную информацию, к которой базовая LLM могла не иметь доступа в рамках своих обучающих данных, что может значительно улучшить точность, релевантность, богатство и разнообразие выводов LLM. Сэм Альтман и другие поддерживают подход «поиска успеха с помощью векторных технологий» — полагаться на RAG для разработки агентов, а не только на тонкую настройку модели.

RAG как альтернатива тонкой настройке

Тонкая настройка LLM включает в себя корректировку весов модели на основе дополнительного обучения на конкретном наборе данных для повышения производительности в определенных задачах или улучшения понимания в некоторых областях. Этот процесс не только медленнее, чем темпы инноваций, что означает, что настроенные модели устаревают почти так же быстро, как и обновляются, но и не решает проблему свежих данных.

В отличие от этого, RAG позволяет модели в реальном времени получать доступ к внешним базам данных для извлечения наиболее актуальной информации, соответствующей запросу. Даже если базовая модель не была недавно обновлена или настроена, она все равно может генерировать ответы, включающие последние данные. Модели остаются актуальными дольше, поскольку они могут адаптироваться к новым данным и изменяющимся контекстам благодаря извлечению внешних источников информации.

RAG эффективно устраняет разрыв между глубоким обучением и традиционными методами поиска информации. Делая это, он использует сильные стороны обоих подходов — мощное контекстуальное понимание глубокого обучения и точность поиска информации. Этот гибридный подход позволяет LLM генерировать более точные, детализированные и контекстуально богатые ответы.

Решение дополнительных ограничений LLM

Кроме тонкой настройки, RAG также решает ранее отмеченные проблемы, связанные со стандартными LLM:

Расширение контекстного понимания: RAG расширяет контекстное окно традиционных LLM, получая актуальную или детализированную информацию, что улучшает ответы модели.
Повышение специфичности и точности: Вместо того чтобы полагаться исключительно на шаблоны, изученные во время обучения, RAG позволяет модели вводить конкретные детали из извлеченных документов в свои ответы, делая их не только более точными, но и адаптированными к конкретному запросу.
Снижение повторяемости и предсказуемости: Динамически извлекая различные наборы информации для каждого запроса, RAG может значительно варьировать ответы модели. Эта вариативность помогает снизить повторяемость и предсказуемость, часто встречающиеся в чисто генеративных моделях, поскольку внешние данные вводят новые формулировки и детали в разговор.

Проблемы и необходимая эволюция RAG

RAG имеет свои собственные проблемы, такие как задержки и недостаток интеллекта. Представьте себе пошаговую беседу с агентом-чатботом, где пользователь отправляет запрос, LLM выдает несколько токенов, указывая на необходимость дополнительного контекста, база данных поиска по векторам извлекает контекст ближайших соседей через входной запрос пользователя, и затем оба снова отправляются в LLM для вывода. Затем наступает очередь пользователя отвечать и так далее.

В этой системе каждый запрос пользователя инициирует многоэтапную операцию, где каждый шаг добавляет общее время обработки. Скорость всего процесса также зависит от того, насколько быстро база данных поиска по векторам может извлечь необходимый контекст. Если запрос к базе данных сложный или сама база данных большая и не оптимально индексирована, это извлечение может вызвать значительные задержки. Кроме того, особенно в более сложных диалогах, эта последовательность генерации и извлечения может потребоваться несколько раз для адекватного уточнения ответа. Этот итеративный цикл может усугубить задержку, приводя к более медленным взаимодействиям по сравнению с чисто генеративной моделью, которая полагается исключительно на внутренние данные.

Более того, интеллект LLM с обогащением RAG значительно зависит от качества и релевантности информации, извлеченной из базы данных поиска по векторам. Если содержимое базы данных не всеобъемлюще, не актуально или плохо поддерживается, полезность извлеченной информации может быть ограниченной, что влияет на общий интеллект ответов.

Даже когда извлекаются качественные внешние данные, остается проблема того, насколько эффективно эта информация может быть интегрирована в существующую структуру ответов LLM. Модель должна не только включить эти внешние данные, но и сделать это таким образом, чтобы это было контекстуально уместным и связным. Несоответствие между обучением модели и характером внешних данных может привести к ответам, которые технически точны, но контекстуально несвязны.

Следующее поколение LLM

Следующее поколение LLM, вероятно, будет объединять методы RAG на основе поиска по векторам и традиционные методы обучения/тонкой настройки вместе с обработкой структурированных данных (например, SQL-баз данных о рынке традиционных финансов и соответствующих финансовых новостей). Концепция наличия провайдера LLM «здесь» и отдельной базы данных поиска по векторам «там» будет объединяться через новые модели, которые интуитивно расширяют свою индексированную рабочую память на локальные SSD с терабайтами векторизованного контекста.

Space and Time уже предоставила Proof of SQL — доказательство ZK, подтверждающее точность и защиту от подделки обработки SQL-базы данных, своим клиентам и недавно выпустила Proof of Vector Search, которое делает то же самое для поиска по векторам. Эти новаторские доказательства открывают путь к будущему, где LLM могут интегрировать свежий контекст, получать доступ к более широкому и нюансированному спектру данных в реальном времени и интегрировать обработку структурированных данных для получения более информативной аналитики, все это в прослеживаемом и проверяемом виде. Эти достижения в конечном итоге расширят сферу применения LLM, увеличивая их полезность в секторах, сильно зависящих от актуальных данных, таких как финансовые услуги, агрегация новостей и оценка рисков, таким образом стимулируя следующий виток инноваций, движимых ИИ.

Исследование роли RAG в развитии сложных LLM

Понимание генерации контента и обучения LLM Контент

Обработка ввода: Когда вы вводите запрос или вопрос, этот ввод преобразуется в токены: слова или части слов.
Понимание контекста: Модель рассматривает предоставленные токены и, основываясь на своем обучении, пытается понять контекст, который включает всё: от темы до тона вашего запроса.
Предсказание следующего токена: Используя понятый контекст, модель предсказывает, какой токен наиболее вероятен следующим. Она не просто угадывает на основе предыдущего слова; она учитывает весь контекст разговора до этого момента.
Выбор токена: Когда предсказаны возможные следующие токены, модель выбирает один. Этот выбор основывается на вероятности — токен, который наиболее вероятен следующим, исходя из данных, на которых была обучена модель. Стоит отметить, что здесь есть и элемент случайности, который помогает генерировать более разнообразные и естественно звучащие ответы.
Генерация вывода: Выбранный токен затем преобразуется обратно в читаемый текст. Если ответ не завершен (а это часто так после одного токена), процесс повторяется. Новый токен добавляется к последовательности, и модель предсказывает следующий токен на основе этого обновленного контекста.
Итеративное уточнение: Этот процесс предсказания следующего токена и добавления его к последовательности повторяется до тех пор, пока модель не достигнет точки остановки. Это может быть тогда, когда ответ достигает определенной длины, модель предсказывает токен, который обозначает конец предложения или отрывка, или когда выполнены инструкции, заложенные в запросе.

Ограничения компрессии в обучении LLM

Дополнительные ограничения обучения LLM

Размер окна контекста: Одно из основных ограничений — размер окна контекста модели — максимальное количество текста (в токенах), которое модель может учитывать при предсказании. Для многих моделей, включая ранние версии GPT, это окно не достаточно велико, чтобы поддерживать контекст в длительных разговорах или документах, что может привести к потере связности в более длинных текстах или сложных обсуждениях, требующих поддержания контекста за пределами непосредственных предыдущих токенов.
Обобщение против специфичности: Хотя эти модели обучены на огромных наборах данных, их способность обобщать это обучение иногда может приводить к генерации общих или не вполне релевантных ответов. Они могут не дотягивать до создания высоко специфичных или нюансированных ответов, требующих детального понимания или актуальных знаний за пределами их учебных данных.
Недоступность внешних знаний: Модели предсказания следующих токенов ограничены информацией, содержащейся в их учебных наборах данных. Они не могут получить доступ к новой информации после обучения, что означает, что они могут быстро устаревать или не иметь текущего контекста, такого как недавние события, открытия или трендовые темы.
Повторяемость и предсказуемость: Алгоритмическая природа предсказания следующих токенов иногда может приводить к генерации повторяющегося или предсказуемого текста. Поскольку модель часто предпочитает токены, которые статистически более вероятны в данном контексте, она может попасть в циклы или предпочитать общие фразы, снижая вариативность вывода.

Объяснение RAG (обогащенная генерация с извлечением)

"Поиск успеха с помощью векторных технологий"

RAG как альтернатива тонкой настройке

Решение дополнительных ограничений LLM

Кроме тонкой настройки, RAG также решает ранее отмеченные проблемы, связанные со стандартными LLM:

Расширение контекстного понимания: RAG расширяет контекстное окно традиционных LLM, получая актуальную или детализированную информацию, что улучшает ответы модели.
Повышение специфичности и точности: Вместо того чтобы полагаться исключительно на шаблоны, изученные во время обучения, RAG позволяет модели вводить конкретные детали из извлеченных документов в свои ответы, делая их не только более точными, но и адаптированными к конкретному запросу.
Снижение повторяемости и предсказуемости: Динамически извлекая различные наборы информации для каждого запроса, RAG может значительно варьировать ответы модели. Эта вариативность помогает снизить повторяемость и предсказуемость, часто встречающиеся в чисто генеративных моделях, поскольку внешние данные вводят новые формулировки и детали в разговор.

Проблемы и необходимая эволюция RAG

Следующее поколение LLM

blvcksun.eth

blvcksun.eth

No activity yet

blvcksun.eth

blvcksun.eth

No activity yet

Поиск успеха с помощью векторных технологий

Поиск успеха с помощью векторных технологий

No activity yet

No activity yet