【論文解説】プロンプトを2回繰り返すだけ?CoTのジレンマを打ち破るLLMのハック手法

「プロンプトエンジニアリングの常識を覆すかもしれない」

そんな非常に興味深い最新論文が発表されました。今回はその仕組みと、なぜそれがAPI仕様者にとって「福音」となるのかを解説します。

Reference Prompt Repetition Improves Non-Reasoning LLMs (arXiv:2512.14982)

1. CoT(思考の連鎖)のジレンマ

LLMの回答精度を上げるためには「ステップ・バイ・ステップで考えて(Chain-of-Thought)」と指示するのが定石でした。しかし、APIを利用してアプリケーションを開発するエンジニアにとって、これは**「コスト」と「速度」のトレードオフ**を意味します。

| 手法 | 特徴 | デメリット | | :--- | :--- | :--- | | CoT (Chain-of-Thought) | 「答えはAです。なぜなら〜」と思考過程を出力させる | トークン課金が増加し、レスポンスが遅い | | 今回の手法 (Prompt Repetition) | 「答えはAです」と即答させる | 安くて速いのに、精度が高い |

今回紹介する論文 「Prompt Repetition Improves Non-Reasoning LLMs」 は、この「賢くするにはコストや時間がかかる」というジレンマを解決する驚くべき発見を報告しています。

2. 魔法の呪文 `<Query><Query>`

手法は拍子抜けするほど簡単です。 LLMに入力するプロンプト(コンテキストと質問)を、ただ2回繰り返して送信するだけなのです。

具体的なプロンプト構成は以下のようになります。

<コンテキスト>
以下の文章を読んで質問に答えてください...(文章)...

<質問>
この文章の結論は何ですか?

<コンテキスト(繰り返し)>
以下の文章を読んで質問に答えてください...(文章)...

<質問(繰り返し)>
この文章の結論は何ですか?

推論(Reasoning)モードを使わず、この「繰り返しプロンプト」を入力するだけで、Gemini、GPT-4o、Claude、DeepSeekといった主要モデルすべてでベンチマークスコアが向上することが確認されました。

3. なぜこれだけで賢くなるのか?

「大事なことなので2回言いました」というのは人間にも効果的ですが、LLMの場合はより深い技術的な理由があります。それは、 「因果的注意機構(Causal Attention)」のハック(擬似的な双方向エンコーダ化) です。

前回の記事(『Attention Is All You Need』ー大規模言語モデルの心臓部を読み解く)でも解説しましたが、現在のLLM(GPT系列など)は「Decoder-only(デコーダのみ)」のアーキテクチャを採用しています。

Decoderモデルの最大の弱点は、「自分より未来の単語を見ることができない(Causal Masking)」 ことです。文章を読み進めながら意味を理解(Embedding)しなければならないため、BERTのような双方向(Bidirectional)から文章全体を見渡せるEncoderモデルに比べて、深い文脈理解において構造的な不利(ハンデ)を抱えていました。

しかし、「入力を2回繰り返す」とどうなるでしょうか?

1回目のクエリ処理: モデルは通常通り、前の単語だけを見て処理します(未来が見えない状態での理解)。
2回目のクエリ処理: モデルは**「1回目の入力全体」**を「すでに処理し終わった過去の情報」としてフル活用(Self-Attention)できます。

つまり、2回目の処理時点では、実質的に文章全体を事前知識として俯瞰できている状態(双方向アテンションに近い状態) を強制的に作り出せるのです。これにより、モデルは推論時間(推論過程の出力)をかけずに、BERTのような「深い文脈理解」をハック的に獲得することができます。

4. APIを利用するPythonユーザーへの福音

Web版のChatGPTやGeminiを使っている場合、すでに裏側でモデル自身がこのような最適化(思考プロセスの隠蔽など)を行っている可能性があります。しかし、PythonなどでAPIを直接叩いている開発者にとっては、この手法はまさに即戦力です。

💰 コスト削減

入力トークン(Input Token)量は2倍になりますが、LLMのAPI価格は通常**「入力側」が圧倒的に安く**設定されています(出力側の数分の一以下であることが多いです)。その分、高価な「出力トークン(Output Token)」については、CoT(思考の連鎖)の長々とした出力が不要になり「回答のみ」で済むため、トータルでのコストパフォーマンスは劇的に向上します。

⚡ 超低レイテンシ

LLMのアーキテクチャ上、「プレフィル(入力処理)」は効率的に並列処理されるため、入力文字列が2倍になっても最初のトークンが出力されるまでの待ち時間(Time to First Token)はほとんど変わりません。 CoTのようにダラダラと思考過程が1文字ずつ生成されるのを待つ必要がないため、UX(ユーザー体験)の向上に直結します。

結論

Prompt Repetition(プロンプトの反復) は、Decoder-onlyアーキテクチャが抱える「未来が見えない」という構造的なハンデを、安価な入力トークンの並列処理でねじ伏せる極めて賢いハックです。

「プロンプトエンジニアリングは死んだ」と言われることも増えましたが、LLMの基盤となるアーキテクチャ(Attention機構の仕組み)を深く理解しているかどうかが、こうした魔法のような手法を発見・活用する鍵になります。日々のAPI開発に、ぜひこの <Query><Query> を取り入れてみてください。

【論文解説】プロンプトを2回繰り返すだけ?CoTのジレンマを打ち破るLLMのハック手法

【論文解説】プロンプトを2回繰り返すだけ?CoTのジレンマを打ち破るLLMのハック手法

1. CoT(思考の連鎖)のジレンマ

2. 魔法の呪文 <Query><Query>

3. なぜこれだけで賢くなるのか?

4. APIを利用するPythonユーザーへの福音

💰 コスト削減

⚡ 超低レイテンシ

結論

2. 魔法の呪文 `<Query><Query>`