ベクトル検索を成功させる

洗練された LLM の開発における RAG の役割を探ります。

元のブログ:

https://www.spaceandtime.io/blog/vector-search-to-success

2022 年以前は、作品そのものを使わずに、お気に入りの本の特定の一節や、見たばかりの映画のセリフをすぐに思い出したい場合、おそらく検索エンジンを利用することになるでしょう。慎重に作成された検索入力でプロンプトを表示し、返された結果を解析し、答えが含まれていると思われる SparkNotes または IMDB リンクにアクセスし、数分以内にページ上で探しているテキストを見つけることができます。 ChatGPT を開き、「最も有名なターミネーターの名言は何ですか?」または「二都物語の冒頭の段落を書いてください」と入力するだけで、数秒で逐語的な答えが得られます。

大規模言語モデル (LLM) の最も単純な使用法の 1 つは、知識データベースとして使用することです。 LLM は豊富な情報を含む大規模なデータセットでトレーニングされており、ChatGPT のようなインターフェイスにより検索が容易になります。たとえば、映画や書籍のコンテンツを返すように ChatGPT に指示する場合、トレーニング中に公開された情報を呼び出すモデルの機能を利用しているだけです。しかし、ターミネーターの脚本に基づいて訓練されていなかったり、その重みがディケンズの作品に当てはまらなかったらどうなるでしょうか?最も単純なユースケース (基本的な情報検索など) に対しても、最も正確で関連性の高い結果を提供するには、LLM には、幅広い情報に正確にアクセスできる高度なインデックス作成および検索メカニズムが必要です。

LLM のコンテンツ生成とトレーニングについて学ぶ

LLM コンテンツは、次のトークン予測と呼ばれるプロセスを通じて生成されます。これにより、応答が状況に応じて適切で多様性があり、人間のような理解をある程度反映することが保証されます。次のトークンの予測がどのように機能するかを段階的に説明します。

入力処理: プロンプトまたは質問を入力すると、その入力はトークン、つまり単語または単語の断片に変換されます。

コンテキストの理解: モデルは、ユーザーが与えたタグを調べ、そのトレーニングに基づいて、現在のトピックからユーザーが使用しているトーンまでのすべてを含むコンテキストを理解しようとします。

次のトークンの予測: モデルは、理解したコンテキストを使用して、最も可能性の高い次のトークンが何であるかを予測します。前の単語に基づいて推測するだけではありません。これまでの会話の全体的な文脈を考慮しています。

トークンの選択: 次に考えられるトークンの範囲が予測されると、1 つが選択されます。この選択は確率、つまりモデルがトレーニングされたデータに基づいて発生する可能性が最も高いマーカーに基づいています。ただし、ここにはランダム性もあり、より多様でより自然な応答を生成するのに役立つことに注意してください。

出力の生成: 選択したマークアップは人間が判読できるテキストに変換されます。応答が不完全な場合 (通常は 1 つのトークンの後ではありません)、プロセスが繰り返されます。新しいトークンがシーケンスに追加され、モデルは更新されたコンテキストに基づいて次のトークンを予測します。

反復改良: 次のトークンを予測してシーケンスに追加するプロセスは、モデルが停止点に到達するまで繰り返されます。これは、応答が特定の長さに達し、モデルが文または段落の終わりを示すトークンを予測したとき、またはプロンプトに埋め込まれた指示を満たすときなどが考えられます。

LLM トレーニングにおける圧縮の制限

LLM はトークンを予測するときに、その重みに埋め込まれた圧縮された知識を効率的に取得して活用し、状況に応じて適切な出力を生成します。このように、LLM トレーニングはデータベース圧縮を反映します。データベースが頻繁にアクセスされるデータを素早く呼び出せるように最適化されているのと同じように、LLM は重み (特定の補間メモリ) から情報を取得するように設計されています。この機能により、適切にインデックス付けされた情報をデータベースにクエリするのと同じように、トレーニング中に遭遇したよく知られた内容に対するクエリに対して正確な応答を生成できます。ただし、モデルがあまり馴染みのないコンテンツや曖昧なコンテンツに遭遇すると、制限が生じます。

たとえば、聖書の特定の一節について LLM に質問すると、LLM はそれらをそのまま引用しますが、トレーニング中に冗長な「証人」を持たなかった概念については、その概念に関連する重みが大きすぎるため、その概念をそのまま引用することはできません。。この意味では、LLM もデータベースに似ています。データベースが明示的に保存されているデータのみを返すのと同様に、LLM はトレーニング中にあまり見ていないトピックのコンテンツを生成するのが難しい場合があります。

もちろん、LLM は、純粋に検索を超えたものを「理解」できる世界の内部モデルを持っているため、この類似性の範囲を超えています。ただし、この過度の単純化は、LLM がコンテンツを生成するようにトレーニングされる方法のいくつかの重要な制限を理解するのに役立ちます。

LLM トレーニングのさらなる制限

さらに、次のトークン予測システムには、基礎となるテキスト生成方法に起因する他の固有の制限があります。

コンテキストウィンドウサイズ: 主な制限の 1 つは、モデルのコンテキストウィンドウサイズです。これは、モデルが予測を行うときに考慮できるテキスト (トークン単位) の最大量です。多くのモデル (GPT の以前のバージョンを含む) では、このウィンドウは長い会話やドキュメントのコンテキストを維持できるほど大きくないため、維持する必要がある長いテキストや複雑な議論の一貫性が失われる可能性があります。前のトークン。

一般化と特異性: これらのモデルは大規模なデータセットでトレーニングされていますが、トレーニングから一般化する能力により、一般的なコンテンツや漠然と関連性のあるコンテンツが生成されることがあります。トレーニングデータ以外の詳細な理解や最先端の知識を必要とする、非常に具体的または微妙な応答を生成できない場合があります。

外部知識へのアクセスの欠如: 次のトークン予測モデルは、トレーニングデータセットに含まれる情報に限定されます。トレーニング後に新しい情報にアクセスしたり統合したりできないということは、すぐに情報が古くなったり、最近の出来事、発見、注目のトピックなどの現在のコンテキストが欠落したりする可能性があることを意味します。

再現性と予測可能性: 次のタグ予測のアルゴリズムの性質により、テキスト生成が反復的または予測可能になる場合があります。通常、モデルはコンテキストを考慮すると、統計的に追跡される可能性が高いトークンを優先するため、ループに陥ったり、一般的なフレーズを優先したりする可能性があり、それによって出力の変動性が低減されます。

検索拡張生成 (RAG) の説明

上で述べたように、LLM はトレーニング中にデータのさまざまな側面に割り当てられた重みに基づいて応答を生成します。これらの重みは、モデルが認識する入力データのさまざまな要素の重要性を反映します。ユーザーのプロンプトに、トレーニングデータではあまり表されていない要素が含まれている場合、モデルは正確な応答や適切な応答を生成しない可能性があります。

会話が LLM のコンテキストウィンドウを超える場合、またはプロンプトが LLM 自身のトレーニングデータセットの重要な重み制限を超える場合 (ユーザーが探している答えを正確に思い出せないことを意味します)、モデルは通常、外部のベクトル検索データベースに依存します。これにより、関連するコンテキストやユーザープロンプトに追加できる新しいデータを検索できるようになります。このプロセスは、検索拡張生成 (RAG) と呼ばれます。

「ベクトル検索が成功しました」

RAG プロセスは、ベクトル検索データベース (ベクトル形式でデータを保存および管理する高レベルのデータベース) を通じて実装されます。これらのベクトルは高次元空間内のデータを表し、各次元がデータの意味の一部の側面を捉え、複雑な関係や属性の表現を可能にします。テキストと言語のコンテキストでは、ベクトル検索データベースは埋め込みなどの技術を使用してテキストを数値ベクトルに変換します。この変換により、システムは、多次元空間内の異なるテキスト断片の対応するベクトル間の距離を計算することにより、異なるテキスト断片間の意味的類似性を測定できるようになります。

RAG 中に、クエリ (LLM へのユーザー入力など) と保存されたデータ (記事、文書、文章など) の両方が、テキスト埋め込みを使用してベクトルに変換されます。これらの埋め込みはテキストデータを数値ベクトルに変換し、同様の意味がベクトル空間内の近くの点にマッピングされます。次に、データベースはクエリベクトルと格納されたデータベクトルの間の距離を計算し、テキストの意味がどの程度関連しているかを判断します。データベースは、そのベクトルがクエリベクトルに最も近いデータポイント (テキストコンテンツ)、つまり入力と意味的に最も似ているデータポイントを取得します。これらのデータポイントは、コンテキストと意味の観点から「最近傍」とみなされます。

これらの最近傍は、LLM が独自のトレーニングデータ内でアクセスできない可能性がある、文脈上関連する追加情報の基礎を提供し、LLM の出力の精度、関連性、豊富さ、多様性を大幅に向上させることができます。 Sam Altman 氏らは、モデルの微調整のみではなく、RAG を利用してエージェントを開発する「成功のためのベクトル探索」アプローチを提唱しています。

微調整の代替としての RAG

LLM の微調整には、特定のデータセットでの追加トレーニングに基づいてモデルの重みを調整して、特定のタスクのパフォーマンスを向上させたり、一部のドメインの理解を深めたりすることが含まれます。このプロセスはイノベーションの速度よりも遅い、つまり、微調整されたモデルは更新されるのとほぼ同じ速さで古くなってしまうだけでなく、新しいデータにも対応できません。

対照的に、RAG を使用すると、モデルはリアルタイムで外部データベースにアクセスし、現在のクエリに関連する最新の情報を取得できます。基礎となるモデルが最近更新または微調整されていない場合でも、最新のデータを含む応答を生成できます。モデルは、外部の情報ソースを取得してコンテキストを理解することで、新しいデータや変更に適応できるため、関連性がより長く保たれます。

LLM のさらなる制限への対処

RAG は、微調整に加えて、標準 LLM に関連する前述の課題にも対処します。

コンテキストの理解の拡張: RAG は、モデルの応答を強化する最新情報または詳細情報を取得することで、従来の LLM のコンテキストウィンドウを拡張します。

特異性と精度の向上: RAG を使用すると、モデルはトレーニング中に学習したパターンのみに依存するのではなく、取得したドキュメントからの特定の詳細を応答に挿入できるため、モデルの精度が向上するだけでなく、現在の状況に合わせてより具体的に問い合わせることができます。

重複と予測可能性の削減: RAG は、クエリごとに異なる情報セットを動的に抽出することで、モデルの応答を大幅に変更できます。この変動性は、外部データによって会話に新しい表現や詳細が導入されるため、純粋に生成モデルによく見られる反復性や予測可能性を軽減するのに役立ちます。

RAG の課題と必要な進化

ただし、RAG には、遅延とインテリジェンスの欠如という独自の課題があります。ユーザーがプロンプトを送信し、LLM が追加のコンテキストが必要であることを示すいくつかのトークンを吐き出し、ベクターがデータベースを検索してユーザーの入力プロンプトを介して最も近いコンテキストを取得し、最終的に両方を送信する、ターンベースのエージェントチャットボットの会話を考えてみましょう。推論のために再び LLM に送信されます。次に、ユーザーが返信する番になります。

このシステムでは、各ユーザープロンプトが複数ステップの操作を開始し、各ステップが合計処理時間に加算されます。プロセス全体の速度は、ベクトル検索データベースが必要なコンテキストをどれだけ早く取得できるかにも依存します。データベースクエリが複雑な場合、またはデータベース自体が大きくて最適なインデックスがない場合、この取得により大幅な遅延が発生する可能性があります。さらに、特により複雑な会話では、応答を完全に改良するために、この一連の生成と取得を何度も繰り返す必要がある場合があります。この反復ループによりレイテンシーが増加し、内部データのみに依存する純粋な生成モデルよりも対話が遅くなります。

さらに、RAG リッチ LLM のインテリジェンスは、ベクトル検索データベースから取得される情報の品質と関連性に大きく依存します。データベースが包括的でなく、最新でもなく、十分に維持されていない場合、取得した情報の有用性が制限され、応答の全体的なインテリジェンスに影響を与える可能性があります。

高品質の外部データが取得された場合でも、この情報を LLM の既存の応答フレームワークに効果的に統合する方法が課題として残ります。モデルはこの外部データを組み込むだけでなく、状況に応じて適切かつ一貫した方法で組み込む必要があります。モデルのトレーニングと外部データの性質の間に不一致があると、技術的には正確でも、コンテキスト的には切り離された応答が発生する可能性があります。

次世代LLM

次世代の LLM では、ベクトル検索ベースの RAG と、従来のトレーニング/微調整方法および構造化データ処理 (TradFi 市場データや関連する金融ニュースの SQL データベースなど) が混合される可能性があります。「ここ」に 1 つの LLM プロバイダーがあり、「そこ」に別個のベクトル検索データベースがあるという概念は、インデックス作成作業メモリをテラバイトのベクトル化コンテキストを持つローカル SSD に直感的に拡張する新しいモデルによって体系化されます。

Space and Time はすでに、SQL データベース処理の精度と耐改ざん性を検証する ZK プルーフである Proof of SQL を顧客に提供しています。さらに最近では、ベクター検索の取得を提供する Proof of Vector Search も同様の効果を提供しています。これらの新しい証明は、LLM が新しいコンテキストを統合し、より広範囲でより詳細なデータ範囲にリアルタイムでアクセスし、構造化データ処理を統合して、より洞察に満ちた分析をすべて追跡可能で検証可能な方法で行うことができる未来への道を開きます。これらの進歩により、最終的に LLM の適用範囲が拡大し、金融サービス、ニュース集約、リスク評価など、最新のデータに大きく依存する分野での有用性が拡大し、イノベーション主導型 AI の次の波を推進します。

洗練された LLM の開発における RAG の役割を探ります。

元のブログ:

https://www.spaceandtime.io/blog/vector-search-to-success

LLM のコンテンツ生成とトレーニングについて学ぶ

入力処理: プロンプトまたは質問を入力すると、その入力はトークン、つまり単語または単語の断片に変換されます。

LLM トレーニングにおける圧縮の制限

LLM トレーニングのさらなる制限

さらに、次のトークン予測システムには、基礎となるテキスト生成方法に起因する他の固有の制限があります。

検索拡張生成 (RAG) の説明

「ベクトル検索が成功しました」

微調整の代替としての RAG

LLM のさらなる制限への対処

RAG は、微調整に加えて、標準 LLM に関連する前述の課題にも対処します。

Kujira

Kujira

No activity yet

Kujira

Kujira

No activity yet

ベクトル検索を成功させる

ベクトル検索を成功させる

LLM のコンテンツ生成とトレーニングについて学ぶ

LLM トレーニングにおける圧縮の制限

LLM トレーニングのさらなる制限

検索拡張生成 (RAG) の説明

「ベクトル検索が成功しました」

微調整の代替としての RAG

LLM のさらなる制限への対処

RAG の課題と必要な進化

次世代LLM

LLM のコンテンツ生成とトレーニングについて学ぶ

LLM トレーニングにおける圧縮の制限

LLM トレーニングのさらなる制限

検索拡張生成 (RAG) の説明

「ベクトル検索が成功しました」

微調整の代替としての RAG

LLM のさらなる制限への対処

RAG の課題と必要な進化

次世代LLM

No activity yet

No activity yet