GPT-4.5の事前学習に関する動画において再び話題となっていた「LLMの事前学習は圧縮することによって学習を実現している」というコメントについて、その参考としてよく参照されるIlya Sutskeverによる2023年の講演「An Observation on Generalization」を改めて見直し、以下に要点をまとめてみた。
教師あり学習については、理論的な枠組みが比較的よく整備されており、たとえばi.i.d.の仮定などの条件のもとで適切な目的関数を設定すれば、汎化性能をある程度理論的に予測することができる。実際、訓練誤差とモデルの複雑さの和を最小化することで、テスト誤差も一定の確率で最小化されることが保障されている。
これに対し、教師なし学習においても同様の理論的保証が可能かといえば、2025年現在においても明確な理解は得られておらず、目的関数の最小化が下流タスクの性能向上にどのように寄与するのかについては、依然としてよくわかっていないのが実情である。Sutskeverの講演では、この問題に対する一つの仮説として、教師なし学習は「圧縮」を通じて知識を獲得しているのではないかという見解が示された。
たとえば、2つのデータセット X, Y と、圧縮器 C(data)を考える。圧縮器は入力されたデータを圧縮し、その圧縮後サイズを|C(data)| で評価する。このとき、良い圧縮器であれば以下のような不等式を満たすはずである:
|C(concat(X, Y)) | < C(X) + C(Y) + O(1)
ここで concat(X,Y)はXとYを連結したデータを意味する。この不等式の直感的な意味は、XとYを個別に圧縮するよりも、それらを結合して圧縮したほうが、共通するパターンをより効果的に利用でき、より短い表現が可能になるというものである。
すなわち、圧縮後のサイズを小さくするという目的を通して、圧縮器はデータに共通して潜むパターンや法則性を抽出することになる。特に、そのパターンが複数のデータ点に共通するものであれば、より強力な表現を獲得できることになる(上記の例では2つのデータのみを扱ったが、実際の学習では無数のデータが存在する)。
Xが日本語データセットでYが英語データセットであったとしよう。この場合、良い圧縮器であれば日本語と英語に共通するパターンや知識を用いて圧縮することができるはずた。
コルモゴロフ複雑性 K(x)は、データを最も短く表現するプログラムの長さとして定義される理論的な概念であり、最も理想的な圧縮率を表す。ただし、K(x)は一般には計算不可能であり理想的な概念である。任意の計算可能な圧縮器Cに対しては、以下の不等式が成り立つ:
K(X) <= |C(X) | + K(C) + O(1)
これは、任意の圧縮器を用いて圧縮したサイズの上限は、圧縮器自身の記述の長さと圧縮後のサイズの和になる、ということを示している。
このコルモゴロフ複雑性は条件付きの形でも定義でき、外部情報 XXX を用いて YYY を圧縮する条件付き複雑性は次のようになる:
K(Y|X) <= |C(Y|X) + K(C) + O(1)
また、連鎖則により同時複雑性は次のように書ける:
K(X, Y) <= K(X) + K(Y|X) + O(log K(X|Y))
この式は、XとYを同時に生成する最も短いプログラムの長さは、Xを生成する最も短いプログラムと、Xが与えられたときにYを生成する最も短いプログラムを用いた場合とほぼ同等であることを示している。
ここで、Xを教師なしの学習データ、Yを未知のラベルデータと考えると、理想的にはK(X, Y)を最小化できるようなモデルが作れればよいがYが未知であるため、現実にはXのみを最小に記述し、さらに K(Y∣X)も小さくなることが期待されるようなプログラムを求めることが目的となる。
もちろん、コルモゴロフ複雑性を達成するような最小プログラムは、計算不可能である(任意のプログラムが停止するかどうかは一般には決定できない)ため、実際には求まらない。しかし、多数のパラメータを持つニューラルネットワークを「無数の圧縮器の候補がある中から効率的に探索可能な圧縮器」とみなし、最尤推定によって学習することによって、理想的な圧縮には及ばずとも、類似の効果が得られると考えられている。
つまり、「圧縮する」という目的関数を通じて、モデルは複数のデータに共通するパターンを抽出するようになる。そしてこれは、教師なし学習において、目的タスクのデータと関連していれば特に有効である。
(連鎖則に基づけば、まず学習データを圧縮できること、未知のデータも適応して圧縮できるようになっているようになっていれば良い)。
補足:本講演に対する現在(2025年)の私見
===
教師なし学習において、「情報を圧縮する目標が知能を獲得する重要な概念である」という考え方は、現在においても妥当性を保っていると考えられる。この理念に基づき理論や実践はさらに洗練されてきており、同時にいくつかの課題も明らかになってきた。
特に優れた圧縮器の探索は常に困難を伴う。今のTransformer+SGDはかなり優れているが最適ではなくデータ効率が悪かったり最適な圧縮器とはなっていないだろう。また、目的関数が適切であったとしても、それによって良好な表現が得られるとは限らない。たとえば画像領域では、復元損失だけでは十分に意味的な表現が獲得されないことが多く、他の損失関数との組み合わせ(例:コントラスト学習)が有効とされている。
この問題に対しては、アーキテクチャや最適化手法の改良のみならず、データ生成や知識蒸留などの補助的手法による支援が現実的な解決策となるだろう。
また、データ枯渇が深刻化し、データ効率性がより重視されるようになれば、複数回のデータ参照やデータの組み合わせを通じた学習、さらにはモデルの記述長(圧縮率)そのものが重要となる可能性がある。その際には、単なるパラメータ数ではなく、PAC-Bayes理論的観点から「いかに簡潔なモデルに近いか」を尺度とすることがより正確であると思われる。