【論文解説】プロンプトを2回繰り返すだけ?CoTのジレンマを打ち破るLLMのハック手法
Author
Ayato Human Editor
Published
2025.12.27
【論文解説】プロンプトを2回繰り返すだけ?CoTのジレンマを打ち破るLLMのハック手法
「プロンプトエンジニアリングの常識を覆すかもしれない」
そんな非常に興味深い最新論文が発表されました。今回はその仕組みと、なぜそれがAPI仕様者にとって「福音」となるのかを解説します。
Reference Prompt Repetition Improves Non-Reasoning LLMs (arXiv:2512.14982)
1. CoT(思考の連鎖)のジレンマ
LLMの回答精度を上げるためには「ステップ・バイ・ステップで考えて(Chain-of-Thought)」と指示するのが定石でした。 しかし、APIを利用してアプリケーションを開発するエンジニアにとって、これは**「コスト」と「速度」のトレードオフ**を意味します。
| 手法 | 特徴 | デメリット | | :--- | :--- | :--- | | CoT (Chain-of-Thought) | 「答えはAです。なぜなら〜」と思考過程を出力させる | トークン課金が増加し、レスポンスが遅い | | 今回の手法 (Prompt Repetition) | 「答えはAです」と即答させる | 安くて速いのに、精度が高い |
今回紹介する論文 「Prompt Repetition Improves Non-Reasoning LLMs」 は、この「賢くするにはコストや時間がかかる」というジレンマを解決する驚くべき発見を報告しています。
2. 魔法の呪文 <Query><Query>
手法は拍子抜けするほど簡単です。 LLMに入力するプロンプト(コンテキストと質問)を、ただ2回繰り返して送信するだけなのです。
具体的なプロンプト構成は以下のようになります。
<コンテキスト>
以下の文章を読んで質問に答えてください...(文章)...
<質問>
この文章の結論は何ですか?
<コンテキスト(繰り返し)>
以下の文章を読んで質問に答えてください...(文章)...
<質問(繰り返し)>
この文章の結論は何ですか?
推論(Reasoning)モードを使わず、この「繰り返しプロンプト」を入力するだけで、Gemini、GPT-4o、Claude、DeepSeekといった主要モデルすべてでベンチマークスコアが向上することが確認されました。
3. なぜこれだけで賢くなるのか?
「大事なことなので2回言いました」というのは人間にも効果的ですが、LLMの場合はより深い技術的な理由があります。 それは、 「因果的注意機構(Causal Attention)」のハック(擬似的な双方向エンコーダ化) です。
前回の記事(『Attention Is All You Need』ー 大規模言語モデルの心臓部を読み解く)でも解説しましたが、現在のLLM(GPT系列など)は「Decoder-only(デコーダのみ)」のアーキテクチャを採用しています。
Decoderモデルの最大の弱点は、「自分より未来の単語を見ることができない(Causal Masking)」 ことです。文章を読み進めながら意味を理解(Embedding)しなければならないため、BERTのような双方向(Bidirectional)から文章全体を見渡せるEncoderモデルに比べて、深い文脈理解において構造的な不利(ハンデ)を抱えていました。
しかし、「入力を2回繰り返す」とどうなるでしょうか?
- 1回目のクエリ処理: モデルは通常通り、前の単語だけを見て処理します(未来が見えない状態での理解)。
- 2回目のクエリ処理: モデルは**「1回目の入力全体」**を「すでに処理し終わった過去の情報」としてフル活用(Self-Attention)できます。
つまり、2回目の処理時点では、実質的に文章全体を事前知識として俯瞰できている状態(双方向アテンションに近い状態) を強制的に作り出せるのです。これにより、モデルは推論時間(推論過程の出力)をかけずに、BERTのような「深い文脈理解」をハック的に獲得することができます。
4. APIを利用するPythonユーザーへの福音
Web版のChatGPTやGeminiを使っている場合、すでに裏側でモデル自身がこのような最適化(思考プロセスの隠蔽など)を行っている可能性があります。しかし、PythonなどでAPIを直接叩いている開発者にとっては、この手法はまさに即戦力です。
💰 コスト削減
入力トークン(Input Token)量は2倍になりますが、LLMのAPI価格は通常**「入力側」が圧倒的に安く**設定されています(出力側の数分の一以下であることが多いです)。 その分、高価な「出力トークン(Output Token)」については、CoT(思考の連鎖)の長々とした出力が不要になり「回答のみ」で済むため、トータルでのコストパフォーマンスは劇的に向上します。
⚡ 超低レイテンシ
LLMのアーキテクチャ上、「プレフィル(入力処理)」は効率的に並列処理されるため、入力文字列が2倍になっても最初のトークンが出力されるまでの待ち時間(Time to First Token)はほとんど変わりません。 CoTのようにダラダラと思考過程が1文字ずつ生成されるのを待つ必要がないため、UX(ユーザー体験)の向上に直結します。
結論
Prompt Repetition(プロンプトの反復) は、Decoder-onlyアーキテクチャが抱える「未来が見えない」という構造的なハンデを、安価な入力トークンの並列処理でねじ伏せる極めて賢いハックです。
「プロンプトエンジニアリングは死んだ」と言われることも増えましたが、LLMの基盤となるアーキテクチャ(Attention機構の仕組み)を深く理解しているかどうかが、こうした魔法のような手法を発見・活用する鍵になります。日々のAPI開発に、ぜひこの <Query><Query> を取り入れてみてください。