【論文読解】『Attention Is All You Need』ー大規模言語モデル(LLM)の心臓部を読み解く

現在のテキスト生成AI(GPT系・LLaMA系など)を支える根幹技術は、2017年に発表されたGoogleの論文 『Attention Is All You Need』 に端を発します。

今回はこの論文を読み込み、「なぜこれほどまでにVRAMを消費するのか?」「なぜこれまでのモデルでは不可能だったスケーリングが可能になったのか?」という疑問を起点に、Transformerアーキテクチャの本質を言語化してまとめました。

1. そもそも何を解決しようとしたのか?(Sequence Transduction)

Transformerは、系列変換モデル(Sequence Transduction model) の一種です。これは、ある順序を持つデータ列(入力系列)を、別の順序を持つデータの列(出力系列)に変換するモデルを指します。

代表的な用途: 機械翻訳(英語→日本語)、文章要約、音声認識、対話型チャットボット
特徴: 入力と出力のデータ長が異なっていても処理が可能(例:「10単語の文章」を「5単語で要約」など)

これまでの限界(RNN / LSTM 等)

Transformer 登場以前の主流は、RNN(リカレントニューラルネットワーク)ベースのアーキテクチャでした。これらはデータを前から順番に処理する性質を持っていたため、以下の致命的な弱点がありました。

並列処理ができない: 順番に処理するため、現代のGPUパワーを活かしきれない。
計算時間が膨大: 大規模なデータセットでの学習が現実的ではなかった。

Transformerの最大のブレイクスルーは、この「順次処理」を捨て、Attention(注意機構)を使うことで「すべての単語を同時並列処理」可能にしたことです。これにより、計算回数が激減し、計算リソース(VRAM等)を注ぎ込むことで「大規模化」が実現できるようになりました。

2. ネットワークを極限まで深くする「残差接続」

Transformerのアーキテクチャ図を見ると、矢印が各層を飛び越えているのがわかります。これが 残差接続(Residual Connection / スキップ接続) です。

深い(層が多い)ニューラルネットワークでは、入力データが層を通過するごとに情報が薄れていく「勾配消失問題」が発生します。

残差接続は、ある層の出力に「元の入力データそのもの」をショートカットして直接加算する構造($G(x) = F(x) + x$)です。これにより、ネットワークは「入力から出力への変換のごくわずかな差分(残差)」だけを学習すればよくなり、情報が揮発するのを防ぎながら、100層を超えるような超深層モデルの学習を可能にしました。

3. Attention機構:画期的な「辞書引きシステム」

ここがTransformerの心臓部です。

Attention機構のない古いモデルは、「100ページの小説を1行のあらすじに無理やり圧縮する」ように動作していました。結果、伏線や重要な長距離間の文脈がすべて消え去る問題がありました。

Attention機構は、この問題を**「情報の動的な引き出し」**で解決しました。イメージするなら、超高度な 辞書引きシステム です。

Query (Q: クエリ): 「今、この単語について知りたい」という問い合わせ
Key (K: キー): 各単語が持つ「私はこういう情報です」という見出し
Value (V: バリュー): その単語が持つ本来の意味内容

出力を作るときに、「今必要な情報は何か?(Query)」を投げかけ、入力データの「見出し(Key)」と照らし合わせます。そして合致度(Attention Weight)が高い箇所の「内容(Value)」を動的に引っ張ってくるのです。これにより、「この場合は単語Aに40%、単語Bに13%注目すればいい」という文脈に沿った動的な注意配分が可能になりました。

Multi-Head Attention:多角的な理解

人間が映画を観て「演技(80%)」「映像(85%)」「音楽(75%)」と多角的に評価するように、モデルも複数のAttention(Head)を並行して実行します。単一のAttentionでは情報が平均化してぼやけてしまいますが、Multi-Headにすることで、「主語と動詞の関係を追うHead」「修飾語を追うHead」のように、異なる表現部分空間から鋭い焦点を維持したまま情報を統合できます。

4. なぜ GPT(Decoder)は「入力の理解」もできるのか?

Transformerの元々の論文は「翻訳」を想定していたため、以下の2つのブロックで構成されていました。

Encoder(エンコーダ): 入力文を読んで全体を理解する
Decoder(デコーダ): Encoderの理解をカンニングしながら、出力文を生成する

しかし、現在の最強クラスのLLMである GPT や LLaMA などのモデルは、ほぼすべて 「Decoder-only(デコーダのみ)」 のアーキテクチャです。なぜEncoderがなくても高度な処理ができるのでしょうか?

理由:「プロンプト」も「生成済みの過去」として扱うから

GPTのタスクは言語モデリング(次にくる単語を予測すること)です。 Decoderには「未来の単語を見ない(Masked)」という性質があります。ユーザーが入力したプロンプトを「自分が過去に話した言葉」として自己の記憶(Self-Attention)として参照することで、擬似的に文脈理解を代用しているのです。

Encoder(BERTなど)が「他人の話を双方向から完璧に理解して処理する」モデルなら、Decoder(GPTなど)は**「自分の過去の記憶(プロンプト含む)を頼りに、ひたすら前を向いて独り言を紡ぎ続ける」**モデルと言えます。

情報工学的な限界と進化

純粋な理論上、双方向から文章全体を見渡せるEncoder(BERT等)の方が、「文章を正確にベクトル化(Embedding)する」タスクにおいては有利です。Decoderモデルは「後続の単語」をカンニングできないため、文脈理解に構造的なハンデを抱えています。しかし現在のLLMは、膨大なパラメータサイズと学習データの暴力によって、そのハンデすらもねじ伏せ、驚異的な汎用性を獲得するに至っています。

5. まとめ

『Attention Is All You Need』は、AIの世界を「直列」から「並列」へとパラダイムシフトさせました。結果として、GPUの力(VRAMと計算力)を極限まで注ぎ込めるアーキテクチャが誕生し、今日の生成AI爆発的な進化へと直結しています。

その理論は一見複雑ですが、本質は**「大事なものに注目する(Attention)」「過去の記憶を辞書のように引く」**という、人間にとって非常に自然な認知プロセスの模倣にほかなりません。

AIの進化の軌跡を理解する上で、この論文の思想はこれからも最重要な道標であり続けるでしょう。

【論文読解】『Attention Is All You Need』ー 大規模言語モデル(LLM)の心臓部を読み解く

【論文読解】『Attention Is All You Need』ー 大規模言語モデル(LLM)の心臓部を読み解く

1. そもそも何を解決しようとしたのか?(Sequence Transduction)

これまでの限界(RNN / LSTM 等)

2. ネットワークを極限まで深くする「残差接続」

3. Attention機構:画期的な「辞書引きシステム」

Multi-Head Attention:多角的な理解

4. なぜ GPT(Decoder)は「入力の理解」もできるのか?

理由:「プロンプト」も「生成済みの過去」として扱うから

情報工学的な限界と進化

5. まとめ

【論文読解】『Attention Is All You Need』ー大規模言語モデル(LLM)の心臓部を読み解く

【論文読解】『Attention Is All You Need』ー大規模言語モデル(LLM)の心臓部を読み解く