AI

Lost in the Middleで低下するRAG精度を設計で改善する実践ポイント

RAGの回答精度が伸び悩む原因の多くは、検索した文書をLLMにそのまま渡す設計にあります。LLMには入力の先頭と末尾を重視し中間を読み飛ばす「Lost in the Middle」という性質があり、せっかく上位で検索した文書が中間に埋もれると回答へ反映されません。本記事では、この現象の仕組みから、チャンク設計・ハイブリッド検索・リランク・並び替え・コンテキスト圧縮といったRAGの精度向上手法、そして精度評価の実務手順までを、設計の観点で整理します。長文コンテキストモデルでも完全には解消しない前提で、どの対策をどの順番で入れるべきかが分かります。

目次

まとめ:中間情報の軽視を前提としたRAG設計と精度改善の要点

結論として、Lost in the Middleは「起きる前提」で設計に織り込むことが、RAGの回答精度を底上げする近道です。検索で拾った文書を全件そのまま渡すのではなく、リランクで関連度順に並べ替え、最も重要な文書を入力の先頭と末尾へ寄せ、投入件数を3〜5件程度に絞り込みます。これだけでも、中間に埋もれて無視されていた根拠が回答へ反映されやすくなります。

対策の優先順位は、投入件数の最適化と並び替え、次に2段階リトリーバルとクロスエンコーダによるリランク、続いてハイブリッド検索とチャンク設計の見直し、必要に応じたコンテキスト圧縮、という順序が費用対効果に優れます。仕上げに、正解文書の位置を変えて精度がどう動くかを測る検証と、LLM-as-a-judgeなどによる定量評価を回し、改善を継続します。各手法の根拠と実装の勘所は、以降の章で順に解説します。

Lost in the Middleの仕組みとRAG精度への影響の全体像

Lost in the Middleは、LLMが長い入力のどの位置に重要情報があるかによって性能が変わる現象です。RAGはまさに複数の検索文書を一つの入力に詰め込む仕組みであり、この性質の影響を最も受けやすい構成と言えます。まずは現象の正体とアーキテクチャ上の要因を押さえます。

先頭と末尾を重視するU字型注意バイアスの正体

LLMの注意は入力全体に均等には向かず、先頭(primacy)と末尾(recency)に強く偏り、中間が薄くなるU字型のカーブを描きます。これは人間が長文の冒頭と結びだけ覚えている状態に似ていますが、原因は記憶ではなくモデル構造にあります。Liu et al.(Stanford・UC Berkeley・Samaya AI、2023年発表/TACL 2024)が「Lost in the Middle」として体系的に示し、以降の追試でも繰り返し再現されています。RAGでは、検索器が見つけた最重要文書がたまたま中間に置かれると、回答に使われないという事態が起こります。

位置1から10へ動かすと約20ポイント低下したマルチ文書QAの実測

Liu et al.の実験では、20件の文書のうち正解を含む1件の位置を変えながらマルチ文書QAの精度を測定しました。正解文書が先頭(位置1)や末尾(位置20)にあるときは高精度ですが、中間付近(位置10)へ移すと正答率が約20ポイント低下したと報告されています。重要なのは、検索内容や文書数は同じで、位置だけが変わった点です。RAGの回答品質が日によってばらつく、あるいは特定の質問だけ精度が落ちるといった現象は、この位置依存が原因であるケースが少なくありません。

causal maskとRoPE減衰が生む中間軽視のアーキテクチャ要因

この偏りは設定ミスではなく、Transformerの構造に由来します。一つはcausal mask(因果マスク)で、各トークンは自分より前のトークンしか参照できないため、先頭付近のトークンが後続すべてから参照され、相対的に重みを集めます。もう一つは多くのモデルが採用する位置エンコーディングRoPEで、距離が離れるほど注意が減衰しやすくなります。MIT系の研究(Wu et al., 2025, arXiv:2502.01951)はcausal maskが位置バイアスを生む機序を理論的に説明しました。原因が構造側にあるため、プロンプトの書き換えだけでは根本解決しないと理解しておくことが設計の出発点になります。

コンテキスト窓を広げても解消しないcontext rotの注意点

「数百万トークンの長文コンテキストに対応したから全部入れれば良い」という発想は危険です。研究では、コンテキスト窓を広げても中間軽視は消えず、むしろ窓が大きいほど劣化が目立つ場合があると指摘されています。入れた情報が増えるほど性能がじわじわ落ちる、いわゆるcontext rot(コンテキストの劣化)です。窓のサイズは「入れられる量」を示すだけで、「使いこなせる量」を保証しません。長文モデルを採用しても、何を入れ何を捨てるかという検索・選別の設計は引き続き必須です。

検索文書を全件渡すRAGで中間軽視が顕在化する失敗パターン

典型的な失敗は、検索器が返した上位10〜20件をそのままプロンプトへ連結する素朴な構成です。関連度の低い文書(hard negative)が混ざり、肝心の根拠が中間に埋もれ、回答が一般論やハルシネーションに流れます。判断基準として、回答に必要な根拠が1〜2文書で足りるのに10件以上渡しているなら、件数とノイズを疑うべきサインです。次章以降の並び替え・リランク・件数最適化は、いずれもこの「全件投入」を脱却するための具体策にあたります。

検索段階の精度を左右するチャンク設計と検索手法の選び方

Lost in the Middleへの対策は生成の直前だけでなく、入力に何を載せるかを決める検索段階から始まります。良いチャンクと適切な検索手法は、そもそも中間に埋もれる無駄な文書を減らす土台になります。

回答単位を意識したチャンク分割サイズと粒度の判断基準

チャンクは「一つの問いに答えるのに必要な情報が、過不足なく1片に収まる」粒度が理想です。細かすぎると文脈が切れて意味検索が外し、粗すぎると1片に複数論点が混ざり、ノイズと冗長さを抱えたまま中間に埋もれます。判断の目安として、見出しや段落など文書本来の構造で区切り、句点の途中で割らないこと、関連文を前後に少し重ねるオーバーラップを設けることが有効です。分割の基本的な考え方はチャンクの意味と分割単位の考え方を整理した解説もあわせて参照すると理解が深まります。

ベクトル検索とキーワード検索を併用するハイブリッド構成

検索手法は単独ではなく、意味で探すベクトル検索と語句で探すキーワード検索(BM25)を組み合わせるハイブリッド構成が安定します。両者は得意領域が異なり、補い合うことで再現率が上がるためです。

検索手法 得意 苦手 主な用途
ベクトル検索(セマンティック) 言い換え・意味の近さ 固有名詞・型番の完全一致 概念的な質問
キーワード検索(BM25) 固有名詞・略語・型番 表現の揺れ・同義語 用語・コード検索
ハイブリッド検索 両者の補完による高い再現率 チューニングと実装の負荷 業務文書全般

ベクトル検索の基盤となる仕組みや選定の観点はベクトルデータベースの仕組みと選び方の解説で具体的に確認できます。まず片方で運用を始め、取りこぼしの傾向を見てから併用へ広げる進め方が現実的です。

意味検索が取りこぼす固有名詞や型番をBM25で補う設計

ベクトル検索は「申請」と「申し込み」のような言い換えに強い一方、「ISO 27001」や製品型番「RX-200」のような完全一致を要する語に弱い傾向があります。社内文書ではこうした固有名詞・略語・エラーコードが回答の鍵になることが多く、ここをBM25で確実に拾う設計が効きます。実装では、両手法のスコアを正規化して統合するか、Reciprocal Rank Fusion(RRF)で順位を融合する方法が一般的です。どの語が完全一致を要するかを洗い出すことが、ハイブリッド設計の出発点になります。

チャンク数と再現率のトレードオフを抑える設定の考え方

第1段階の検索で取得する件数(top-k)を増やすと再現率は上がりますが、同時にノイズも増え、後段で中間軽視を招きます。逆に絞りすぎると正解文書を取りこぼします。実務では、第1段階は再現率重視でやや多め(例:数十件)に拾い、後段のリランクと件数最適化で精度に変換する二段構えが定石です。検索段階で完璧を狙うのではなく、「拾う」と「絞る」を工程として分けることが、トレードオフを管理する鍵になります。

メタデータ付与と前処理で検索ノイズを減らす工夫

チャンクに部署・文書種別・更新日などのメタデータを付け、検索時にフィルタすると、無関係な文書を入口で除外できます。例えば「最新の就業規則」という質問に対し、更新日でフィルタすれば旧版が中間に紛れ込む事故を防げます。前処理として、ヘッダー・フッター・定型の免責文など回答に寄与しない反復テキストを除去しておくことも有効です。検索精度はモデルだけでなく、こうした地道なデータ整備に大きく左右されます。

中間情報の埋没を防ぐ並び替えとリランクの設計手法

検索で良い文書を集めても、並べ方を誤れば中間に埋もれます。ここでは、U字型バイアスを逆手に取る並び替えと、関連度を精緻に測り直すリランクを扱います。学習を伴わず導入できるため、費用対効果が高い対策です。

高スコア文書を先頭と末尾へ寄せる並び替えの実装方針

U字型バイアスは弱点であると同時に、利用できる性質でもあります。関連度スコアの高い文書を入力の先頭と末尾に配置し、低いものを中間へ送る並び替え(retrieval reordering)は、注意が集まる場所へ重要情報を置く発想です。ICLRの研究(2025, arXiv:2410.05983)でも、関連度順に並べ替えた構成が標準的な順序を一貫して上回ると報告されています。スコア降順で「先頭→末尾→中間」へ交互に詰めるだけで実装でき、追加コストもほぼ発生しません。

広く拾い狭く絞る2段階リトリーバルの構成パターン

並び替えの前提として、関連度を正しく測る2段階リトリーバルを組みます。手順は次の通りです。

  1. 第1段階は軽量なベクトル検索やBM25で、再現率重視に数十件を広く拾う。
  2. 第2段階でクロスエンコーダのリランカーに通し、クエリと各文書を突き合わせて関連度を再採点する。
  3. 上位3〜5件だけを残し、関連度の高い順に並べたうえで先頭と末尾へ重要文書を配置する。
  4. 残りは破棄し、プロンプトへ渡すトークン量とノイズを同時に抑える。

「広く拾い、狭く絞る」という役割分担により、再現率と精度を両立させます。

埋め込みより精度が出るクロスエンコーダ・リランクの使い所

第2段階のリランクでは、埋め込み(バイエンコーダ)ではなくクロスエンコーダが有効です。バイエンコーダはクエリと文書を別々にベクトル化するため両者の相互作用を捉えにくく、再ランキング器としては精度が頭打ちになりがちです。クロスエンコーダはクエリと文書を一つの入力として同時に評価するため、関連度の判定が精緻になります。第1段階の高速・大量の検索はバイエンコーダ、第2段階の少数精鋭の採点はクロスエンコーダ、という使い分けが実装上の定石です。

件数が多いほど効く並び替えと小規模で効きにくい境界

並び替えの効果は、扱う文書数によって変わります。前掲のICLR研究では、取得件数が少ないと並び替えの改善はわずかで、件数が多いほど一貫して効果が大きくなると示されています。理由は、件数が増えるほど中間軽視とhard negativeの影響がともに強まるためです。判断基準として、投入件数が数件にとどまる小規模構成では並び替え単体の優先度は低く、まず件数最適化で十分なことが多いと考えられます。自社の投入件数を確認してから、対策の重み付けを決めると無駄がありません。

リランク導入時に増えるレイテンシとコストの見積もり

クロスエンコーダのリランクは精度に効く一方、文書ごとに推論を走らせるため処理時間が増えます。第1段階で数十件に絞ってから第2段階に渡す設計にしておけば、リランク対象が限定され、レイテンシの増加を抑えられます。判断材料として、ユーザー体験上許容できる応答時間と、リランク用モデルの推論コストを事前に見積もることが欠かせません。チャットボットのように即時性が重要な用途では、軽量リランカーや件数の上限設定で調整します。

投入件数の最適化とコンテキスト圧縮による回答精度の向上策

「たくさん入れれば当たる」という直感は、RAGでは裏目に出ます。ここでは、件数を絞る発想と、情報量を保ったまま長さを減らす圧縮の手法を扱います。トークン削減はコストとレイテンシの低減にも直結します。

投入チャンクを3〜5件へ絞る件数最適化の考え方

最終的にプロンプトへ載せる文書は、3〜5件程度に絞るのが実務上の出発点です。少数に絞ると、各文書が注意を受けやすくなり、中間に埋もれる確率が下がります。回答に必要な根拠が複数文書にまたがる場合でも、まずは少数で精度を測り、不足があれば1件ずつ増やして変化を見る進め方が安全です。最初から多数を入れて精度を落とすより、少数で確実に当てる構成のほうが運用も評価も容易になります。

件数を増やすほど性能が頭打ちになる逓減の実例

研究では、取得文書を増やすと性能が初めは伸び、その後はむしろ低下する逓減カーブが報告されています。単に数を増やしても回答は良くならず、ノイズと中間軽視で逆効果になり得るということです。さらに、より強力な検索器を使っても、関連はするが答えではない紛らわしい文書(hard negative)が増え、劣化が深刻化する場合すらあります。「件数を増やす」「検索器を強くする」は万能策ではなく、件数の最適点を探す姿勢が重要です。

LongLLMLinguaで精度を保ちトークンを圧縮する手法

件数を絞っても各文書が長い場合は、コンテキスト圧縮が選択肢になります。代表例のLongLLMLinguaは、質問に関連の薄いトークンを削るプロンプト圧縮手法で、精度を最大21.4%向上させつつトークン量を約4分の1に抑えられると報告されています。圧縮は中間軽視そのものを直接消すわけではありませんが、入力を短く濃くすることで重要情報が薄まるのを防ぎ、結果的にコストとレイテンシも下げられます。長大なマニュアルや議事録を扱う用途で効果を発揮します。

冗長文書を除くコンテキストキュレーションの判断基準

圧縮の前段として、そもそも冗長・重複・矛盾する文書を除くコンテキストキュレーションが効きます。同じ内容を述べた複数文書をすべて渡すと、注意が分散し中間軽視を助長します。判断基準は、各文書が回答に固有の根拠を加えているかどうかです。重複文書は代表1件に統合し、明らかに古い・矛盾する情報はメタデータや更新日で除外します。入れる前に「捨てる」工程を持つことが、後段の精度を底上げします。

強い検索器がhard negativeを増やし精度を下げる落とし穴

検索器を高性能なものに替えれば精度が上がる、とは限りません。強い検索器ほど「関連はするが答えではない」紛らわしい文書を上位に集めやすく、これがhard negativeとして生成を惑わせます。対策は、検索器の強化とセットでリランクと件数最適化を必ず組み合わせることです。検索・リランク・選別は独立した改善ではなく、一体で設計すべき工程だと捉えると、こうした落とし穴を避けられます。

プロンプト改善と注意キャリブレーションによる中間軽視の緩和策

検索と並び替えを整えたうえで、生成側からも中間軽視を和らげられます。手軽なプロンプトの工夫から、モデルの注意そのものを補正する研究レベルの手法まで、効果と限界を押さえます。

最も関連する一文を明示して精度を引き上げるプロンプト例

最も手軽な対策は、プロンプトで注意の向け先を示すことです。Anthropicは2023年、Claude 2.1の長文コンテキストで「Here is the most relevant sentence in the context:(文脈中で最も関連する一文はこれです)」という一文を添えるだけで、正答率が27%から98%へ改善した事例を示しました。検索済みの根拠を回答冒頭で要約させる、根拠の引用を必須にするといった指示も同系統の工夫です。コストゼロで試せるため、最初に検証する価値があります。

指示文をどこに置くかで回答が変わる順序効果への対処

プロンプト内の指示や前提の置き場所も精度に影響します。指示文を文書群の後ろ、つまり末尾近くに置くと、recencyの効果で従われやすくなる一方、長い文書群の前に置いた指示は中間に沈みやすくなります。対処として、重要な指示は文書群の直前と直後の両方に置く、あるいは質問を末尾に再掲する方法があります。前章の文書並び替えと同じく、注意が集まる位置に重要要素を配置するという一貫した原則で考えると整理しやすくなります。

Found-in-the-Middleによる注意バイアス補正の効果

より踏み込んだ手法として、注意バイアスを補正するアプローチがあります。Found-in-the-Middle(Hsieh et al., 2024, arXiv:2406.16008)は、位置に起因する注意の偏りを較正し、関連度に応じて中間の文書にも注意を向けさせる仕組みで、RAGの性能を既存手法比で最大15ポイント改善したと報告されています。プロンプトの工夫では届かない構造側の偏りに対処できる点が特徴です。導入には実装上の手当てが要るため、まず軽い対策で不足が残る場合の選択肢として位置づけます。

Ms-PoEやIN2学習など学習側で緩和する選択肢

学習・推論側からの緩和策も研究が進んでいます。位置エンコーディングを調整するMs-PoEや、中間情報の活用を学習させるIN2訓練などが代表例です。これらはモデルの中間軽視そのものを減らす方向の手法で、効果は大きい一方、モデルへの介入や追加学習を伴います。自社でモデルを保有・微調整できる場合の選択肢であり、APIモデルを利用する一般的なRAGでは、まず検索・並び替え・件数の設計で対処するのが現実的です。

プロンプト対策だけで完結させない設計上の前提

注意したいのは、プロンプトの工夫は補助であって主役ではないという点です。中間軽視の原因はcausal maskやRoPEといった構造側にあるため、プロンプトだけに頼ると効果が頭打ちになります。設計の主軸はあくまで、検索で良い文書を集め、リランクで並べ替え、件数を絞る工程に置くべきです。プロンプト対策は、その仕上げとして最後の数ポイントを取りに行く位置づけだと整理すると、過信による失敗を避けられます。

RAG精度評価の指標とLost in the Middle検証の実務手順

対策を入れたら、効果を数値で確かめる仕組みが要ります。RAGの評価は単一の正答率では不十分で、工程ごとに分けて測ることがボトルネックの特定につながります。

検索・リランク・生成・E2Eの4層で測る評価設計

RAGの評価は、どの工程で精度が落ちているかを切り分けられるよう、4つの層に分けて設計します。

評価層 主な指標 確認する問い
検索 Recall@k・適合率 正解文書をそもそも拾えているか
リランク nDCG・MRR 関連度の高い順に並べ替えられているか
生成 正答率・忠実性(faithfulness) 根拠に基づいて答えているか
E2E(全体) タスク成功率・人手/LLM評価 利用者の質問に最終的に答えられているか

検索層が低ければチャンクや検索手法、生成層だけ低ければ並び替えやプロンプト、と原因を絞り込めます。

正解文書の位置を動かして中間軽視を再現する検証法

Lost in the Middleの影響を自社環境で測るには、Liu et al.の実験を再現するのが確実です。正解を含む文書1件を用意し、ダミー文書群の中で位置を先頭・中間・末尾と変えながら、同じ質問への正答率を記録します。中間に置いたときだけ正答率が顕著に下がるなら、自社のRAGも中間軽視の影響下にあると判断できます。この簡易テストは、並び替えやリランクを導入する前後の比較にも使え、対策の効果を可視化する実務的な手段になります。

LLM-as-a-judgeで回答品質を定量化する評価手順

回答の正誤や品質は人手評価が理想ですが、件数が多いと現実的でないため、LLMに採点させるLLM-as-a-judgeが有効です。正解例・根拠・評価基準を与え、回答の忠実性や網羅性を点数化させることで、改善前後の差を継続的に測れます。バイアスを避けるため、評価基準を明文化し、複数回採点の平均を取るなどの工夫が要ります。具体的な進め方はLLM-as-a-judgeによる評価設計の解説で確認すると、自社の評価フローに落とし込みやすくなります。

再現率と適合率で検索段階のボトルネックを切り分け

生成の質が低いとき、原因が検索にあるのか生成にあるのかは、検索層の指標で切り分けられます。Recall@k(上位k件に正解文書が含まれる割合)が低ければ、そもそも根拠を拾えておらず、チャンク設計や検索手法の問題です。再現率は十分なのに正答率が低いなら、拾えた根拠が中間に埋もれている可能性が高く、並び替えやリランクの出番です。指標を見ずに闇雲にプロンプトを直しても改善しないため、まず検索層を測ることが近道になります。

改善前後をA/Bで比較する継続的な精度モニタリング

評価は一度きりでなく、改善を入れるたびにA/Bで比較し、継続的にモニタリングします。同一の評価用質問セット(ゴールデンセット)を固定し、並び替えの有無やリランク導入の前後で各層の指標を並べて比較すると、施策ごとの寄与が明確になります。文書やモデルの更新で精度が劣化することもあるため、定期的な再評価を運用に組み込むことが、RAGの品質を長期で保つ前提になります。

長文コンテキストモデル時代にRAG設計を選ぶ際の判断基準

コンテキスト窓が巨大化した今、「RAGは不要では」という問いも生まれます。ここでは、全件投入と検索併用のどちらを選ぶか、長文モデル時代ならではの判断軸を独自の視点で整理します。

全件投入か検索併用かを分ける文書量とコストの境界

判断の第一軸は、対象文書の総量とコストです。参照範囲が数ページ程度に収まり毎回ほぼ同じなら、全文をそのまま渡す構成が単純で有利です。一方、社内文書が数千件規模で、質問ごとに参照箇所が変わるなら、検索で絞るRAGが不可欠になります。全件投入は窓に入っても、毎回大量のトークンを処理するためコストとレイテンシが膨らみます。文書量・更新頻度・1問あたり許容コストの3点で、どちらに寄せるかを決めると判断がぶれません。

長文窓でも中間軽視が残る前提での設計の優先順位

前提として、窓を広げても中間軽視は残ります。したがって長文モデルを採用しても、設計の優先順位は変わりません。第一に投入する情報を必要十分に絞ること、第二に重要情報を先頭と末尾へ配置すること、第三に評価で効果を確かめること、という順序です。「長文モデルだから全部入れる」という設計は、context rotで精度を落とすリスクが高く、避けるべき選択になります。

レイテンシ・費用・精度の三者を両立させる構成の選び方

実運用では、精度だけでなくレイテンシと費用の三者をてんびんにかけます。例えば即時応答が要るチャットボットなら、件数を絞りリランクを軽量化して速度を優先します。夜間バッチの文書分析なら、件数を増やし圧縮や強いリランクで精度を優先できます。用途ごとに優先順位が異なるため、まず三者の許容ラインを決め、そこから逆算して検索件数・リランク・圧縮の強度を調整する進め方が現実的です。

PoCから本番運用へ移す際に再評価すべき設計項目

PoCで動いたRAGが本番で精度を落とす例は珍しくありません。データ量が増えればhard negativeも増え、検索件数の最適点も動くためです。本番移行時は、ゴールデンセットでの再評価、検索件数とリランクの再調整、文書更新の運用フロー、コストとレイテンシの実測を改めて点検します。PoCの設定をそのまま流用せず、規模に応じて設計値を見直すことが、品質低下を防ぐ要点になります。

自社データ特性に応じた検索手法の使い分けの指針

最後の軸は、自社データの性質に合わせた手法選択です。製品型番・法令番号・エラーコードなど完全一致が重要な文書群ではBM25の比重を高め、概念や手順を問う相談的な質問が多いならベクトル検索を厚くします。どちらも混在する一般的な業務文書では、ハイブリッド構成を基本に置くのが無難です。汎用の正解はなく、自社の質問ログと文書特性を見て使い分けることが、Lost in the Middle対策を含むRAG設計全体の精度を決めます。

よくある質問

Lost in the MiddleとRAG設計について、検討時によく挙がる疑問を整理しました。導入判断や優先順位づけの参考にしてください。

Lost in the MiddleはGPTやClaudeなど最新モデルでも起きますか?

はい、程度の差はあれ最新モデルでも観測されます。原因がcausal maskやRoPEといったTransformerの構造に由来するため、モデルが新しくなっても完全には消えません。新しいモデルや長文対応モデルで軽減される傾向はあるものの、入力が長く文書数が多いほど影響は残ります。「最新モデルだから対策不要」とは考えず、検証で自社環境の影響度を確かめることをおすすめします。

RAGの精度が低いとき、最初に見直すべき設計はどこですか?

まず投入している検索文書の件数と並び順を確認してください。上位10〜20件を全件そのまま渡しているなら、3〜5件への絞り込みと、関連度順の並び替えだけで改善することが多いです。それでも不足する場合は、検索層のRecall@kを測り、根拠を拾えていない(検索の問題)のか、拾えているが活かせていない(並び替え・生成の問題)のかを切り分けます。原因の所在を特定してから対策を選ぶと、遠回りを避けられます。

リランクとハイブリッド検索はどちらを先に導入すべきですか?

一般には、まず件数最適化と並び替えという低コストの対策から入り、次に2段階リトリーバルのリランクを導入する順序が費用対効果に優れます。ハイブリッド検索は、固有名詞や型番の取りこぼしが課題として見えてから追加すると無駄がありません。ただし、扱う文書に完全一致が必須の語が多い場合は、ハイブリッド検索を先に入れる判断もあり得ます。自社の取りこぼし傾向を評価で把握したうえで順序を決めてください。

コンテキスト窓が大きいモデルなら全文を入れた方が精度は上がりますか?

必ずしも上がりません。窓が大きくても中間軽視は残り、入れる情報が増えるほど精度がじわじわ落ちるcontext rotが起こり得ます。さらに、毎回大量のトークンを処理するためコストとレイテンシも増えます。参照範囲が小さく固定的なら全文投入も選択肢ですが、文書量が多い業務用途では、検索で必要箇所を絞るRAGのほうが精度・コストの両面で有利になるのが一般的です。

Lost in the Middleの影響は、どうやって数値で確認できますか?

正解を含む文書1件を、ダミー文書群の先頭・中間・末尾と位置だけ変えて配置し、同じ質問への正答率を比較する簡易テストが有効です。中間に置いたときだけ正答率が明確に下がれば、自社のRAGも影響を受けていると判断できます。あわせて、検索層のRecall@kと生成層の正答率を分けて測れば、根拠を拾えていないのか、拾えたが活かせていないのかも切り分けられます。対策の前後で同じテストを回せば、効果も可視化できます。

関連記事

資料請求

RELATED POSTS 関連記事