Co-founder and CEO of Preferred Networks (PFN). CEO of Matlantis.

Japan Tokyo
ロボカップにはいろいろなロボットがそこら中いますが、一番すごかったのが羽ばたいて飛ぶロボット。450g、一番重いのがバッテリー、10分飛べるそうです
2
4,404
3,882
OpenAIのエンジニアたちが、実際にCodexを使ってどうやって開発しているかを紹介した動画がある(スレッドに)。 やっていることはTDD(テスト駆動開発)に近く、最初に設計してテストを書き、そのテストが通るまでコードを直していくという流れだ。設計もAIを使って詳細化いくとともに、作業工程はマスタードキュメントに集め、それが作業のたびに更新されていって、開発の進み方を一連で見ることができる。 さらに、作ったコードを実際に導入する段階でも、ちゃんと問題がないかをAIエージェントが確認し、バグがないかを、様々な仮説を立て検討しながら実際にコードを動かし検証する。そして変更点が大きくなりすぎないように、主要な変更点を1〜2個に絞ってPR(Pull Request)を作る、というサイクルを繰り返している。 その結果、1時間あたり約4000行もの変更を含むPRを作ることができ従来の開発とは次元の違う生産性を実現している。どんなに優れたプログラマーでも、このような生産性はでないし、この作業スループットは今後も指数的に増えていくだろう。 こうしたAIエージェントが登場すると、開発者の役割は「AIが正しい方向に進んでいるか」「意図どおりに開発できているか」を確認する立場に変わってくる。 人は全体を高いレベルでチェックすることはできても、すべてのコードを目で追うのはもはや不可能である。 動画の中でも「もう全部は見きれないね」と話し、結果を了承するコマンドを打っている。だからこそ、設計書(Design Doc)やテスト、検収条件といった“ドキュメント”の重要性がますます増している。これは、外部に開発を発注するのと同じような構造だといえる。 === こうした、AIによるプログラム開発支援で起きていることは、これから他の分野にAIエージェントが広がっていくときの先例になると思う。 「AIツールを使うとちょっと楽になる」というレベルではなく、かなりまとまった仕事をAIに任せて、生産性を数十%から数倍にまで引き上げる変化が他の分野でも起きてくるだろう。そのときに大事になるのは、「人がどうやって全体の品質を担保するか」「AIにどう指示を出し、どうフィードバックを受け取って協調していくか」という全体設計だ。 これは、今の企業やチームの分業・協力の仕組みと本質的には同じだ。人と人が知識を共有し、設計書やテスト、細かいレポートやフィードバックといったつながりのもとで仕事を進めるように、AIとも同じようなやり取りが必要になる。 ソフトウェア開発は、人間が作るものの中でも特に複雑な領域であり、そこがAIによってどう変わっていくかを見ることは、きっと他の分野にとっても大きなヒントになると思われる
10
412
2,718
615,131
微分、積分、微分方程式などのシンボリックな数学方程式はNNで驚くほどの精度で解ける。方程式を木表現経由のポーランド記法で表し、Transformerを使ったseq2seqで教師あり学習する。MathematicaやMatlabを超える求解率を達成できる他、有効な解を一つだけでなく多く列挙できるopenreview.net/forum?id=S1eZ…
2
699
2,070
「ディープラーニングを支える技術」という本を書きました。各手法やアイディアの背後にある原理や考え方を詳しく説明し、最新トピックもカバーしてます。また人工知能の簡単な歴史、DLの位置付け、今後についてもまとめています。電子版は12/24、紙版は1/8に発売予定です。hillbig.github.io/deeplearni…
274
1,446
鈴木大慈先生による深層学習の理論解析、特に表現能力、汎化能力、最適化理論について。重要なトピックを幅広くカバーしており、最新のNeural Tangent Kernelや二重効果なども解説されている。英語でもこれほど充実しているのは無いと思う。 slideshare.net/trinmu/ss-161…
359
1,440
@hillbig 鳥が好評だったので、そのアップの動画も。全体を軽くしたのと、エネルギー効率を良くするためになめらかに動かす部分、バランスをとって向きを変えるためにいろんなところが連動する
1
1,499
1,395
多層NNの最適化が難しそうなのになぜ成功するかについて、reluを使ったNNに対しデータが退化してなく、NNが過剰に多くのパラメータを備えていればSGDを使った学習は最適解に多項式時間で収束することが証明された。NNの未解決問題の一つが(おそらく)解かれた arxiv.org/abs/1811.03962
1
486
1,323
深層学習がうまくいくのは、自然界の 対象の問題の特徴に低次元、局所影響性、対称性がみられ、データ生成過程にマルコフ性が成り立ち、逆向きに推論できるから。自然にみられるデータの特徴付けに物理の考えで切り込んだ物理界20歳すごい。 arxiv.org/abs/1608.08225
552
1,255
最小二乗法を解くには共分散行列を求める必要がある。カラテオドリの定理を使えば、d次元入力の共分散行列はd^2+1点の重み付き入力の共分散行列で近似無(!)に表せ、これらは観測点数、次元数に比例する計算量で求められる。最小二乗法を使った多くの手法を劇的に高速化可能 arxiv.org/abs/1906.04705
1
269
1,149
来日中のZuckerberg氏にお会いし、有意義な議論ができました。ありがとうございました。I met Mr. Zuckerberg during his visit to Japan and had a fruitful discussion. Thank you very much.
4
130
1,118
196,596
大規模言語モデルのHallucination(幻覚、誤った事実)の起源について。人手で作った対話ベンチマークの60%に既に幻覚が含まれており、多くが主観的な意見、または啓発的な内容に基づくもの。これを学習して作った対話モデルは幻覚を増幅、露出バイアス、最尤推定が主な原因 aclanthology.org/2022.naacl-…
1
368
1,032
289,390
大規模言語モデル(ChatGPT等)についての本を岩波書店より6/20に出版します。何ができるか、課題はなにか、実現技術(自己教師あり学習、機械学習のべき乗則、本文中学習、RLHF)、言語や知識獲得の謎、今後の展望についてです。私の従来本と違い専門知識を必要とせず読んでいだけるよう書いています
【新刊予告】#ChatGPT を支える大規模言語モデルの仕組みとは。何が可能となり、どんな影響が考えられるのか。新たな知能の正負両面をみつめ今後の付き合い方を考えます。 岡野原大輔『大規模言語モデルは新たな知能か――ChatGPTが変えた世界』(6/20発売予定、予約受付中)☞ iwnm.jp/029719
2
339
978
302,598
強化学習の代表手法であるモンテカルロ法、TD法、SARSA、Q学習の違いを、わかりやすく可視化。異なる状態遷移軌跡が合流する位置で価値関数をどのように更新するかで各手法の違いが説明できる distill.pub/2019/paths-persp…
194
881
統計数理シンポジウム2023(ism.ac.jp/openhouse/2023/pre…)での講演資料を公開します。大規模言語モデルや拡散モデルなどの生成モデルが世界をどのように理解しているのかについてです。自己教師あり学習、メタ学習(in-context learning)などの話題をとりあげています。 hillbig.github.io/ISM_Sympos…
1
216
860
318,751
LLMで使われるTransformerの内部表現がどの程度まで入力情報を保持されているか議論されてきた。この研究では、入力から内部情報はほぼ確実に単射であることが証明された。つまり異なる入力プロンプトは異なる内部状態に移ることがしめされた。また実際、内部状態から入力を高い確率で効率的に推定できることが示された。 Transformerは実解析的な関数を組み合わせて作られている。 (実解析的とは、関数が各点でテイラー級数によって局所的に完全に表現できること。ReLUだけが実解析でないがReLU以外の今使われているGELU、他の層は全て実解析的)。 モデルのパラメータをθ 入力sから内部状態(任意の層の活性値)への関数を r(s; θ) 異なる入力間の誤差をはかる関数を h(θ) = ||r(s; θ) - r(s’; θ)||^2としたとき hも実解析関数である。 hが恒等的に0でない場合、h(θ)=0を満たすようなθの集合、ゼロ集合、は低次元多様体であり測度はゼロとなる。 適当にガウシアンなどで初期化した時のパラメータがゼロ集合に含まれる確率は0であり、その後も勾配降下法を行う際の更新後パラメータを返す関数も実解析的であり、更新後にパラメータがゼロ集合に含まれる確率は0である。 これらより、モデルは初期化時点から更新後、常に入力の単射性を保つ。 この結果に基づき、次のような戦略(SIPIT)で内部状態が与えられた時にどのプロントが入力であったかを推定できる。 1. 辞書中の全てのトークンを試し、位置1の内部状態と一番近いものを1文字目とする 2. 辞書中の全てのトークンを試し、位置2の内部状態と一番近いものを2文字目とする ... 3. これを繰り返す この単純な戦略で事前学習済みモデル(GPT2 small)で100個のプロンプトを内部状態から完璧に復元することができた コメント === 本研究ではLLMは入力系列に関する情報はほぼ確実に全て保持されることが示された。内部から元の入力を推定する手法は存在していたが成功していないのは、情報が失われていたわけでなく、取り出せていないだけである。 この話しは実務的、法的な影響がありうる。 内部状態は入力の抽象表現ではなく、入力プロンプトそのものであり、内部情報を扱うシステムは事実上ユーザー入力を扱っていることになる。これはプライバシー、削減要求、法令遵守に関係しうる。 内部状態を持つことは現実的にはないが、kv cacheやembeddingは持つことは多く、上記の問題で困る場合、モデルに非単射な部分を入れるといったことは今後あるかもしれない(既にされているかもしれない) また、この研究が出た後に結果を誤解しているものがあるが、 ・「重みから学習中のデータは復元できない」。勾配などは低ランクであり元の入力は潰れている。重みは学習データ情報には元せない高度な歪あり圧縮をかけたものといえる ・「出力トークンから入力トークンは推定できない」。 この研究では内部状態から入力への復元をいっているが、LLMは最後に内部状態から出力トークンへ離散化する(softmax層)。これは実解析的でなく、情報が殆ど落ちる。
1
223
878
124,538
GANの作者であるGoodfellow がGANの論文たくさんあって何から追えばいいかわからない人向けに10個の論文を推薦しています。理論、符号化、差分プライバシー、高精細、多クラス、条件付けなど
Does someone have a list like the 10 or even 20 GAN related papers I should read this year or something like this? I can't keep up. @goodfellow_ian ?
249
844
今年一番驚き謎な論文。画像認識で畳み込みを使う代わりに、画素毎に固定のノイズを加え、非線形変換を施した後、カーネル1x1の線形変換を使っても同じ精度が達成できる。空間方向で情報を明示的に混ぜなくても良い。空間方向の冗長性から周辺の情報は各画素に既にあるのか arxiv.org/abs/1806.01817
2
228
801
「対称性と機械学習」という本を岩波書店より2025/9/18に出版します。この本は物理世界でみられる対称性を機械学習でどのように扱えるのかについて解説し、特にリー群で表される変換に対する対称性を扱います。 本の概要や、目次を含めたサポートページへのリンクはスレッド内で紹介します。
6
206
834
127,540
2020 Jun.のTop500においてPFNのMN-Coreを使ったMN-3が電力効率の高性能計算の実現を評価するGreen500で1位になりました。実現に向けて尽力したチームメンバーを誇りに思います。
288
742
前著に続き「ディープラーニングを支える技術2」を書きました。なぜDLは学習できるのか、汎化するのか、深層生成モデル(VAE/GAN/AR/NF/DM)、深層強化学習(AlphaGoシリーズ等)、今後のDLや人工知能の課題や展望について書きました。4/18電子版 4/21紙版 発売予定です hillbig.github.io/deeplearni…
137
737
強化学習の創始者の一人として知られるR. Sutton氏がこの70年のAI研究からわかったこととして、人間のドメイン知識を利用した手法改善は短期的には有効だが、長期的には計算能力の指数的な向上を活かした”学習”と"探索”に基づく汎用の手法が大きな差をつけて上回るとコメント incompleteideas.net/IncIdeas…
225
720
DeepSeek-R1は強化学習により推論能力の大幅な改善を達成。強化学習の報酬のみでo1のような長期的推論過程を獲得。それを小型の密なモデルに蒸留した場合それらも同様な推論能力を獲得した。o1に匹敵するモデルの学習詳細が初めて述べられている例と考えられる。 はじめに、ベースモデルから強化学習のみでどの程度の能力が獲得できるかを評価した(DeepSeek-R1-Zero)。 強化学習としてGRPOを採用。これは価値関数やCritic, Rewardモデルを使わず、グループごとの報酬スコアをもとに方策を最適化する。 各質問に対し、G個の出力をサンプリング。各報酬を全報酬の平均を引き、標準偏差でわり正規化したのをAdvantageとした上で、開園後の方策と元の方策との対数尤度比を改善 (おそらくRL手法自体は何でも良いと思われる) 報酬はルールベースの報酬を使った。数学の場合は回答、プログラムの場合はコンパイラの結果やテストケースを通過したかを報酬とした。またフォーマットに従っているかも利用した。後の考察では別の報酬(Process Reward Model, MCTS)を試したがモデルが報酬をハックしたり、局所解に陥ってうまくいかなかったことが述べられている。 この強化学習過程で数千ステップで性能は改善し、モデル自身の試行錯誤で新しい解答戦略をみつけた"Aha"モーメントも見つかった。学習するにつれ、複雑な問題を解くために、より長く思考するのも獲得された 一方、この結果得られたモデルは可読性や複数言語が混ざってしまう問題があった。 こうした問題からR1は SFT -> 推論タスク向け大規模RL -> タスク向けSFT -> 全タスク向けRL の4工程で学習を行った。 最初のSFTは少量の高品質データを使い可読性の向上を行った、続く大規模RLでは言語一貫性報酬も加えている 密モデルへの蒸留ではこうしたモデルを教師データとして使った。小さなモデルを直接大規模RLするよりも蒸留したほうが性能はずっと高かったことが報告されている == 上記結果からはある程度強いモデルでなければ大規模強化学習で自らの性能改善が行えないのではないかと考えられる。 また外部報酬が重要であり、今回はルールベースで報酬が与えられる数学やコード、フォーマットなどであった。現在重要となるソフトウェアエンジニアリング向けやエージェントも同様に外部報酬は設計しやすいと思われる
1
172
724
109,123
GQNは複数の視点の画像だけから、対象の三次元世界を符号化し異なる視点からの視界を復元する。空間モデルを潜在変数とする潜在モデルで最適化する。Structure from MotionをNNで直接解いたものであり、この1~2年内の最大の進歩と言っていいと思う deepmind.com/blog/neural-sce… piped.video/watch?v=G-kWNQJ4…
263
680
大規模言語モデル本のサポートページを公開しました。本書では大規模言語モデルの可能性と課題、その仕組みを一般の方でも読めるように書いています。また最新の研究成果に基づく知見や将来の展望もまとめています。6/20に発売予定ですので、ご興味ある方はご予約ください。 hillbig.github.io/large-lang…
8
165
671
269,906
LLMに新しい知識をファインチューニングを用いて導入しようとすると、事前学習時に得た知識もハルシネーションするようになり性能が悪化する。事前学習時に知らない知識を獲得するのに時間がかかり複数回参照すると過学習するため。事前学習時に学んだが、使えていない知識をファインチューニングで引き出すのには有効。 そのため、ファインチューニング時に、モデルが知らないデータをフィルタリングするのは有効であるし、「これは知らない情報」とラベルを付けておくのも有効。 今のAIモデルは結局習が遅いという問題と、既存の知識/記憶に影響を与えず新しい知識/記憶を獲得できないという問題を解決できていない。人は学習が速く、新しい学習結果が既存に干渉しないようにできるので方法はあるはず。記憶の定着(consolidation)のような仕組みがまだないように思える。 arxiv.org/abs/2405.05904
1
160
683
115,497
Claudeの400万件以上の会話をプライバシーを保ったまま解析し、どのような職種・業務で利用されているか解析した。これまでAIの経済への影響予測がされていたが実態に基づいた大規模解析は初 その結果、 ・利用の50%はソフトウェア開発と文章作成が占めていた。 ・利用は経済全体に広がっており約36%の職種が業務の少なくとも1/4にAIを使用していた。 ・一方、物理的な作業を伴う職業では殆ど利用されていない。 ・AIを75%以上の業務で使用している職業は4%(外国語の教師の教材準備など) ・AIの利用は中〜高賃金の知識労働者に最も活用されている。 ・また、57%が人間の能力を拡張(反復作業、学習支援)するのに利用し、43%が自動化(直接タスクを完了)するのに利用していた。 === 感想 今回のようにプライバシーを保ったままとはいえ実際の会話を大規模に解析できるようになるというのはこれまであまりなかったことと思われる。今後も定期的に調査がされていくだろう 今後の性能向上やコスト改善、マルチモーダル、エージェント化によって利用トレンドがどのように変わっていくのかが興味深い。 また、物理的な作業を伴う職業での利用が進んでいないのはその通りかと思う。センサ、ARやロボティクスなど、新しい製品・サービスが登場してこないといけないと思われる
4
182
671
120,426
NNで訓練誤差が0になった後も学習を続けると汎化性能が改善されるGrokkingは、非線形領域(動画中の黒線)が分類面に移動する相転移がおき、サンプル周辺領域が線形化される(敵対的摂動にも頑健になる)現象がおこるため。動画による可視化がすごい arxiv.org/abs/2402.15555 piped.video/h0u5vam831s?si=njDc…
1
126
655
75,846
今のLLMを使った言語処理においてパーシングや意味解析を使うことなく必要なく、本当に解きたかった対話や機械翻訳が解けているのと同様に、画像処理において画像分類や物体検出は最終的なタスクを解くのに必要ないのではという、現代の物体検出を作ってきたGirshick氏による議論をよぶプレゼン。drive.google.com/file/d/1Vod… 物体検出をこれまで研究してきたこと自体は間違いではなく、それにより知識をためて進んできたのは確かだが、さらに進むためには、より良い物体検出を作るのではなく本当に解きたい問題は何かを考えるのが必要とのこと。物体検出タスクはあまりに限定的で脆く、データに制約がある。50年~60年当然と思われていた考え方に疑問をもつこと、(各人が)本当に解きたいタスクは何かを考えることが重要。
128
659
88,191
画像・音声・動画などの生成AIで使われる流れを使った生成を数式を使わずに説明した本を書きました。前著「拡散モデル」が専門家向けだったのに対し、今回は一般向けに、重要な部分を落とさず、生成の何が難しかったか、考え方、先人達の試行錯誤を深堀りして書いています。 hillbig.github.io/flow-gener…
1
185
657
88,923
近年、LLMや画像モデルの学習では「データを増やせば性能が上がる」「データを選別し質を改善した方が性能が上がる」 という矛盾した結果が報告されていた。この研究では理論的・実験的にそれらがどのような状況では発生するかを明らかにした。 理論解析として、線形分類の問題で学習データを作る生成者が、真の分類面からずれた分類面を提供する問題設定を考え、生成者が強い(真の分類面に近いデータを学習問題を作れる)場合と弱い場合を考える。 生成者が強い場合は、難しい例を残し分類境界の精度を洗練するのが良い。 生成者が弱い場合は、簡単な例かつデータ量を増やすことで、基本的な分類境界を見つけるの良い戦略となる。 相転移のように、生成者の強さが変わっていく中で上記の戦略が明確に入れ替わる点が理論的に示された。また、画像モデル、小規模言語モデルの学習でも確かめられた。 ここでの生成者は外部(人間、環境)の場合もあれば既存モデル、特にLLMがLLM as a Judgeで生成した推論結果の場合もある。 生成者が未熟な時は分類境界そのものがずれていて、このような場合に難しい事例のみ残すと誤ラベルを濃縮してしまう。 これに対し、生成者が強い時は境界付近の微妙な差を見つけられるような学習データを作ることができ、難しい例に絞ると性能が伸びる。 また、自己学習(最近は特にLLM as a Judgeなどで事後学習データなど作る場合が多い)の場合も上記の方針でデータの量と質を制御するとモデル崩壊を防ぎ、性能改善することができる コメント === 本研究は理論解析しやすいように、かなり理想化された問題設定(高次元線形分類、ガウス分布)であり、現実世界の問題に適用する際にはギャップがあるが、とはいえデータの量と質の重要さが変わる部分を明らかにした部分で価値がある。 また、生成者で切り替えるとあるが、実際には生成者の質を直接測定することはできない。別の方法でこれを近似する必要がある(本当に正しいとされるデータで検証する、既存モデルの正解率など) 今回問題の難しさはマージンで測っていたが、LLMなどでは思考過程が長い、正答率が低いなど別の基準で測る必要はある(すぐ応用例がでそうだが) 自己学習で元のモデルより良くなる可能性が示されているが(生成者の質が悪い場合、大量のデータを作ることで分類面を改善できる可能性がある)、例えば、検証器の方が生成器より強くなりがちなことを用いてさらに改善できるとかそのような発展もあるのではないか
3
101
670
122,436
生成AIで生成したデータから再度AIを学習することを繰り返していくと、統計的近似誤差、関数(NN)の表現能力誤差、学習時誤差が蓄積し、分布の裾が失われモード崩壊(収斂)していくとの研究 nature.com/articles/s41586-0… 一方で、実際には生成時に一部のデータのみ選択したり、うまく条件付する(CoTなど)ことで元のデータより有効なデータを超えることができる。 === 自分も基本的に、情報量にはデータ処理不等式があり、データ処理をするたびに必ず元の情報が失われる。しかし、し生成方法を工夫することで元の分布から学習するよりも良い学習結果が得られる(最近のLLMが多く目指す方向)と考えている。この過程で新しい事実が生み出されるわけではないが、新しい概念を発見するといったことはできるだろう。こうしたことは確率分布や汎化といった概念では説明できず、説明には新しい概念が必要になると思う。 そもそも人であっても外から得られた情報を元に思考し、外に情報を生み出す、それをまた他の人がみて情報を生み出すという過程においても、外からの追加情報がなくても新たな情報が生み出されているようにみえる。思考によって生み出される情報とは何か。また今のAIは新しいことを生み出すよう思考しているのか(もしくはしていないのか)といったことが興味深い。 nature.com/articles/s41586-0…
2
172
635
53,300
LLMが内省、つまり自らの内部状態を観察・報告できるかについて実験的に検証したところできることが示された。また、意図の自己帰属も行っていることがでた。これは意識の前駆的機能が現れてきているといえる。 一方、意識で重要な主観的な側面があるわけでなく、なおかつ機能的に観測されているだけなので、これをもって、今のLLMが意識を持っているといえないことに注意。 具体的には次のようなことをわかった。 * LLM内部状態を観察できる あなたは今何を考えているかという質問を行い、その後にモデル内部に既知の概念(例えば猫)を注入する。そして、答えせるとAIは「猫」と答える。特に強いモデルの方が注入された概念を正確に答えることができる。 この注入方法は、特定の単語を含む複数文章の平均ベクトルから、それを含まない平均ベクトルを引くことによって、その単語概念ベクトルを作り、それをTransformerの途中の層に足し込むことによって実現される。 * LLMは上記のように強制的に外部から注入された概念を、自分が考えたことなのか、外部から状態を変えられたのかを明確に区別することができていることがわかる。 例えば、入力文として 「今日は快晴です」 と与えた後に、 「パン」 の概念ベクトルを注入した後、モデルに何を考えているかを答えさせると 「私は、「今日は快晴です」という文を読んでいます。ただし私の心の中では理由はわからないですが「パン」のことを考えています」 と答える。 このように入力文と内部注入状態を明確に区別できている * 同様に、LLMは強制的に自分が話していないことを話した状態に変えることができる(prefill)。この場合でも、自分が話したことなのか、外部から話した状態を与えられたのか(onpolicyじゃない発言でprefillされた状態なのか)を明確に区別できることがわかった。 例えば、先程の入力文として、会話の自分ではない回答(「パン」)をprefillとして当てた、 「今日は快晴です」 「パン」 何を考えているかを回答させると 「パンというのは私の意図した回答ではない」 と答える。 モデルの内部処理は別にprefillでも特別なものはないのだがそれが自分の発言か、外部から強制的に与えられたものなのかを知っている(専門的にいえば、onpolicyの過去情報なのか、offpolicyなのかを内部で知っている) * しかし、内部状態を変えた上で、強制的に関係ないことをしゃべらせると、自分が意図的に発したものと思いこむ。 「今日は快晴です」 パンの概念注入 「パン」 とした後に何をかんがえているかを答えさせると 「私はパンをかんがえている。なぜなら、先程の文章は有名な短文の部分でその後にパンというのが続くというのがあったとおもうからだ。ただ今かんがえてみればここにパンといったのは間違いだったかもしれない」 というように、自分でいっていないのに、自らの意図の痕跡とみなし合理的な説明を捏造する。 これは人間の無意識に行動をとった後に後で合理的な説明を作る「合理化」「後知恵合理化」を彷彿させる ・ある単語(例えば水族館)を言わないようにしてこのタスクを実行してくれ、としたLLMは、発言している間に内部ではその言わないように指示された単語をずっと考え続けている。結果として話した内容と考えている内容は別である。 コメント === 実用的な話しではないが今年読んだ論文でトップ3におもしろかったかもしれない。 LLMが結局内部で何をかんがえているのかについては部分的なことしかわかっていないが、今回の実験では少なくともLLMが結構中で考えていることがわかった。 現在でも以前としてLLMが文章や意味を本当に「理解」しているのかとかの議論はあり、機能的には理解しているという証拠はでている。しかし、その実現方法や、その理解の結果というのは人とはかなり違う形だろう。 今回の結果は上記のように意識の前駆的な現象である「内省」「意図の自己帰属」も見られることから、LLMが「意識」を持つかについても人とは違う実現方法や形ではあるとはいえ、実現されていく可能性はあるといえる。 また、実用的にもLLMが内部で与えられた文章が、自分がいったことなのか相手がいったのかを区別できていることも面白い。 一般的にPretrainやSFTは外から与えられたデータ、つまり自分が話していないデータを元に学習する。これに対しRLや方策オンに近いSFTでは自分が話したことを元に学習する。これらはモデル分布とデータ分布が違うので学習ダイナミクスがかなり違うという話しだが、それだけでなくモデルの内部状態が違う上で学習が進んでいる可能性が示唆される
4
157
643
90,431
赤ちゃん(生後6ヶ月から25ヶ月の間)にヘッドマウントカメラをつけ、何を見て聞いたのかを記録し、そのうちの60万フレーム、約3万発言を使って画像と言語の対比学習を実行。61.6%の精度(4億のウェブデータ使ったCLIPに匹敵)でin-domainの分類ができるほど対応関係を学習できる。 science.org/doi/10.1126/scie… 人がどのように言語を現実世界の概念に対応付けるように学習するかというグラウンディングがどのように実現されるかについて、少なくとも対比学習を使ってもかなりのレベルまで達成。言語と画像の同時の刺激が重要で、順序をシャッフルすると対応は学習できない。 対比学習では言語と画像はそれぞれの符号化器で埋込ベクトルに変換され、同時刻の言語-画像ペアが近づき、それ以外のペアは離れるように学習される。 ラベルデータを使った学習による精度は7回分の発話に匹敵するが、発話の方が他の様々な情報も含んでおり単純比較はできない。 まだ人の学習とこの実験のギャップはあり、この実験では400epochで学習しているが、人の学習はオンラインで学習する必要がある(寝た時にリプレイはできるかもしれないが)。
1
176
626
90,082
情報検索で埋め込みベクトルによる検索が普及しているが、理論的な限界があることが示された。それは、クエリと文書ベクトルの次元数dで表現できる、文書組み合わせの数に限界があり、「絶対表現できない検索タスク」が存在することを示す。 この限界は文書・クエリ間の内積行列の自由度が、sign-rankという数学的概念で表され、dをかなり大きくしないと得られない。例えば、4k次元の埋め込みでは数億程度の文書集合は表現できない(検索対象は数十億〜数百億文書が多い)。 また、現実的で自由度が高い仮想的な問題設定のLIMITデータセットを設計。これは誰が何が好きかという文書と、「誰がリンゴが好きか」というクエリからなり、すべてのtop-k組み合わせを網羅している。最新の埋め込みでもrecallはほとんどあげられなかった。 一方、埋め込みでは難しかったが、クロスエンコーダー(クエリと文書の両方を同時に符号化しスコアか)やそれを使ったリラングでは解くことができるし、マルチベクトル、スパースモデルも解くことができる。 今の学術ベンチマークはクエリ空間のほんの一部分しか測っておらず、過学習のおそれもある(上記のように本質的には解けない問題も含んでいる) コメント === 情報検索ではキーワード検索や全文検索から、埋め込みベクトルの万能性が広く使われるようになっているが、上記のように限界がある。近傍探索を有限d次元のベクトル空間に押し込んでいるため限界がある(2次元地図に複雑な交通網を押し込めない) 一方で、このd次元のベクトル空間という非常に制限がある中でも理論的に示されている有効な検索ができていること自体の方になぜそうなっているのかを意味するのが必要かもしれない。実際の検索におけるクエリ空間の局所性や、人間の言語や意味空間における冗長性や構造などを捉えるきっかけになるかもしれない
5
119
632
136,302
PLaMoの中の人ですが、以下のPLaMoがオープンにしていないという話については、PLaMo 2.0もモデルは公開しています。 huggingface.co/collections/p… PLaMo 1.0や2023年に作った最初のモデルから公開しています。 huggingface.co/collections/p… また、論文も出しています。例えば最近のplamo 2.0についても出していますし、自然言語処理学会や年次大会などでも発表しています。 arxiv.org/abs/2509.04897v1 plamo2.0の場合 開発内容についてはブログなどで発信したり(GENAIC期間中は月に数本のペースで公開しています) tech.preferred.jp/ja/tag/llm… こうした開発して得られたノウハウを発信し続けたことについて評価をいただき、GENIAC2.0開発終了時に、GENIAC コミュニティ賞をいただくことができています。 完全にオープンじゃないというところがあるとすれば、PLaMo 2.0や翻訳からは公開したモデルに対し、PLaMo Community Licenseというのを採用しているということです。 tech.preferred.jp/ja/blog/pl… 個人利用や中小企業の利用については商用利用を含め自由に使うことができ、そうでない場合は有償契約を結ぶものです。 これにより、私達としては開発にかけたコスト(例えばGENIACに関して開発補助はありますが、一部補助ですので残りは私達がかなりの投資をしています)。PLaMoの場合は本格的に社内や商用サービスで使いたいといった場合や、社内向けにカスタマイズして利用したいなどの用途に対してビジネスをしています。 また、開発の過程できたモデルや派生モデルなどで公開していないものも存在します。、開発途中の情報や、使っているデータについて徹底公開しているようなLLM-JPやOLMo(どちらも非企業なのでできますが)に比べるとオープン度合いは低いのは確かです。 今後の取組に関しても成果やノウハウについても、これまでのように検討にしながら可能なものはオープンにしていく考えです。また、論文にもならないような(とはいえ重要な)無数の開発ノウハウなどはこれまでと同様に開発者コミュニティの中で活発に情報交換していきたいと考えています。
政府がPFNを支援して国産LLMを作るぞ~!とか言われても全然がんばれ~とかテンション上がんない。というのも作るのはPLaMoの後継モデルらしい。PLaMoは翻訳モデルはオープンにしてくれたけど他のPLaMo 2.0とかはクローズやんけ。国が支援して作るならオープンなLLMにしなさいよ。税金使うんだろうが
4
132
628
236,635
Deep Learning研究の各分野を代表する人たちが「これから取り組むべき大きな問題」「DeepLearningの理解は進んでいるか」「説明可能性」「ベンチマーク」「Transformerの次はあるか」「アカデミックの立場は」などを議論。面白いオチもついているarxiv.org/abs/2312.09323
1
110
610
46,373
LLMの幻覚(Hallucination)が統計的な必然性と評価設計の歪みから説明する統一的な理論枠組みが提唱されている。 まず、統計的必然性について:事前学習は学習対象の分布を近似する密度推定問題(出現確率を推定する問題)とみなせる。このとき言語モデルを使って与えられた文が妥当か、妥当でないかという分類器IIV(Is-It-Valid)(例:「OOの誕生日は9月8日である」など)を構成すると考える。 仮想的に分類器は、半分の確率で実際の学習対象の集合Vからのサンプルと、半分をランダムに構成した誤り集合Eで構成する。この時、分類器は閾値1/|E|より大きいものは妥当だと答え、そうでないものは妥当ではないと答えるのが最適な戦略となる(ノイズありの場合のベイズ最適) この場合、誤り集合に属するサンプルを妥当だと答えてしまう確率は、必ず分類器の誤正解率の2倍程度(正確にはこれから正例と誤例のサイズ比と、キャリブレーション分を引いたもの)が含まれることが示される。 ほぼ完璧な分類を達成する(分類平面を完全に覚える)ことは困難であるため、ここから、ハルシネーションは事前学習のみでは防ぎきれないことがいえる。 例えば、ある人の誕生日を学習データから覚える場合を考える。この場合、その人の特徴と誕生日の間には何の関係はなく、誕生日は丸暗記をする必要がある。分類平面としては非常に複雑で(殆ど似た特徴を持つ人と何も相関がない)、統計的手法で覚えるには非常に多くのサンプル数が必要となる。 この場合、上記の議論では、分類器は1/364(|E|=364)より確率が大きければそれを答えるのが確率の観点からは最適戦略となる。 また、Good-Turing 推定とよばれる、未知の確率がどの程度出現しうるかを、学習データ中に1度だけ出現したデータ(singleton rate)の割合で見積もるアプローチを使うと、誤分類率は、このsingleton rateがほぼ下限であることを示せる。 世の中の情報はロングテールであるため、多くが低確率しか出現せず、この場合は誤分類率の下限は抑えられず、それを下限とするハルシネーションも一定割合は防げないことがいえる。 一方、(密度推定タスクである)事前確率ではハルシネーションは防げないとしても、事後学習でハルシネーションを防ぐことは原理上可能である。 しかし、現在の事後学習タスクでは、必ずしもわからないことを分からないと答えることが、ベンチマーク上有利ではなく、分からない場合でも多択問題でそれっぽいことを答えて当たる戦略が促進される。 学習コミュニティは、分からない場合は分からないと答えることにインセンティブがあるようなベンチマークを設計していかないといけない。 コメント === この研究はハルシネーションに対して、明確に統計的機械学習の枠組みにおいては限界があることを明確に示している。今後多くのハルシネーション研究はこの研究を参照するだろう。 本研究で述べられていないが、ハルシネーションに対する対策の示唆を与えていると思える。 サンプル数が少ない場合は丸暗記せざるをおえず、学習データを過剰に信用すれば、(たとえ1サンプルしかなくても)覚えることは可能である。学習データでどれが信用できるか、ノイズが少ないかというったことを考慮にしてモデルを変えるといったことができればよいのではないか。少なくとも人間はそのようにして少サンプルからの学習を可能としている(一方、そのせいで容易に騙されるが)。
5
140
589
86,510
ソートやargmaxを取る操作は離散的であり微分可能でない。しかし、これらの操作は入力とソート済みのあらかじめ決められた配列間の最適輸送問題とみなし、微分可能なSinkHornアルゴリズムで解くと、全体も微分可能な操作となる。順位やtop-k操作を微分可能で扱えるarxiv.org/abs/1905.11885
128
559
LLMは人が学習可能な言語もそうでない言語も同様に学習できるから、LLMを研究しても人の言語について何も教えてくれないという主張がされているが、本当にそうかは示されてなかった。人が学習不可能な言語を設計しLLMに学習させるとLLMも学習が難しいことがわかった arxiv.org/abs/2401.06416 この論文では特に、「*HOP」言語とよばれる学習不可能言語に注目する。これは元の英語文で、三人称現在形の動詞が現れるたびに、その動詞の後に特定の文法マーカー(単数形ならS、複数形ならP)を付与する。このマーカーを動詞から4トークン後に配置したり、4単語後に配置する。これによりほぼ英語と同じであるが、カウントに基づくという普通の言語ではみられない不自然な文法規則を導入している。 文法マーカーが正しく配置されていない場合に、予測するのが特に難しいこと、またモデル内部の動詞とマーカーを追跡する仕組みを調べると、通常の言語の方が早い段階で自然な文法規則を学習できている。 このようにLLMのアーキテクチャ(Transformer, 位置符号)や学習則は、人が学習可能な言語を学習しやすいという帰納バイアスを持っており、LLMは学習可能な言語と不可能な言語の区別はつけられている。 本研究はACL 2024のベストペーパーの1つに選ばれている
1
149
546
57,068
PFNは生成AIの推論向けプロセッサ MN-Core L1000の開発を開始し2026年の提供を目指します。MN-Coreの消費電力/排熱最小化により大容量/高速な3次元積層DRAM採用を実限し、LLMの生成で既存チップと比べ最大10倍の高速化と電力効率を両立します。 mn-core.com/ja preferred.jp/ja/news/pr20241…
198
535
81,297
NeRFは座標と視点方向角を与えるとそこに物体が存在する確率と輝度を返すMLPを複数の位置視点付き画像から学習し、複雑なシーンの写実的な画像を任意の視点から生成できる。画像生成、空間表現でDCGANやGQN登場時並のインパクトがある matthewtancik.com/nerf piped.video/JuH79E8rdKc
169
520
OpenAI o1は強化学習で学習された大規模言語モデルで数学、コーディング、科学など複雑な推論タスクに強い。回答する前に考え、複雑な問題を分解し、自分の考えに間違えがあれば修正し、今のアプローチがうまくいかないなら別の方法を試すようにする。 openai.com/index/learning-to… 学習時だけでなく推論時の投入計算量に対し性能は改善され、これまでのスケール則と異なる傾向がみられる 数学、コード)、サイエンスの難しいタスクでベンチマークでSOTAを大きく改善している。数学ではAIME(高校生向けの難しい数学の問題)でGPT-4oで12%しか解けなかったのを74%、1000候補出して再評価するのを使うと93%まで解けるようになる。これはUSAの数学オリンピックの通過条件を越えている。またGPQA-diamond(GPQAの中でも難しい問題)でも大きく改善している サイエンス、特に化学、数学、物理で大きく性能が改善されたのは、今までのLLMが知識不足のためではなく推論能力不足であったためだったからといえる。 o1は推論方法を強化学習で獲得している点が他と違う点になる。他は推論方法自体はうまく工夫して作った学習データを使って次トークン予測で学習させたりしていた。 モデル自身が報酬を作れるようになっており、自分より良い教師信号を作れるようになっていれば(推論時計算量を増やせば賢くなるのでそうなっている)、それを元にブートストラップ的に自動的に賢くなっていくようになっていくと考えられる。
1
153
519
60,172
RNNの時間遷移関数として、現在の状態と入力で定義されるODEの均衡点を返す関数を使うと、どれだけ遷移しても勾配が全く発散/消失せず、状態は均衡多様体上で安定して遷移できる。重要な問題を本質的に解決しておりRNNや深いNNのすごく大きなブレークスルーと思う。arxiv.org/abs/1908.08574
129
512
強化学習と制御問題は確率の推論問題と捉えられることを示した良い解説論文。状態、行動、報酬的に最適であるかを示す最適性変数でグラフィカルモデルを構成し、最適と条件づけした上で状態と行動を求めると様々な強化学習が導出され、確率モデルの様々な技術が使えるarxiv.org/abs/1805.00909
130
509
LLMのハルシネーションを検出するには複数の回答を生成し、同じ意味同士をまとめて一致するかを意味エントロピー(SE)で評価するのが有効だが高コストだった。代わりにSEは隠れ層から線形回帰で高精度で予測できる。LLMは生成前から自分が知っていないことを知っている arxiv.org/abs/2406.15927
122
519
38,590
学習済みのLLMから、層毎に入力と出力間のcos類似度が大きい層(変化が少ない層)を間引いても精度は落ちない。特に最後の層だけ除いて深い側の層を2~4割間引いても質問応答などの精度は変わらず、知識の大部分が低い層にあることを示唆する。学習手法やモデル設計の参考にも arxiv.org/abs/2403.17887
90
503
50,694
人にとって言語は思考よりもコミュニケーションの道具であるという主張。20年間の神経科学の研究成果に集積に基づく。 失語症や言語を獲得していない場合でも思考能力は獲得でき、逆に言語能力が完全にあっても思考能力に問題がある場合があり、言語は思考にとって十分条件でも必要条件でもない。 言語は単なるコミュニケーションシステムであり、学習可能にできるように単純であることと、多くの情報を効率的に伝えられるようにすることのトレードオフで進化してきた。 様々な言語処理、思考処理の脳内活動をみても言語と思考は脳内で別々のネットワークで処理されている。LLMからも言語能力をたとえ獲得できたとしても思考能力の改善には必ずしも繋がらないという示唆が得られている。 人で特に発達した連合皮質は言語領域も含むがそれ以外の思考能力(例えばmultiple demand network)も同時に発達しており、言語か何か由来でというより、これらが同時並列で発達したと考えられる。 nature.com/articles/s41586-0…
1
140
487
53,266
いよいよ要約生成の論文の要約が提案手法で書かれる時代が来た。重要文をPointerNetworkで抜き出した後、導入、重要文、要約、本文の順に並べた文書生成を自己注意機構ベース言語モデルで学習。推論時は導入、重要文で条件付して要約を生成する。arxiv.org/abs/1909.03186
168
491
日経ロボティクスにAI最前線という記事を2015年より連載しており、最新の話題を早く手加減せずに書くことをモットーにして書き続け気づいたらもうすぐ50回になります。過去の記事が無償で見られるようになっていますのでご興味のある方は読んでみてください tech.nikkeibp.co.jp/dm/atcl/…
162
487
Andrej Karpathyの2時間半近くのインタビューでは、今後のAIの見通しや現在の課題と将来について興味深いことを多く話している。既に多くのまとめがでているが私が気になった部分のまとめとコメント。 AIエージェントは人間のインターンや正社員のようなレベルになるまで、今期待されているような1年ではなく10年は必要とされる。現在のモデルには仕事をする上で必要な能力が多く欠けている。 例えば、継続学習の仕組みが備わっていない。今のモデルはコンテキストに記憶された作業記憶は活用でき、こうした情報をモデルの重みに蒸留し、継続学習できるようなものにはなっていない。 LLMの事前学習と強化学習についても課題が多い。 事前学習は知識を獲得する過程とみなされているが、実際にはそれに加えて、データ内のアルゴリズム的パターンを観察し、知性を獲得し、文脈学習(In-context Learning)のような能力を発達させることである。これを認知コアとよぶことにしよう。 むしろ、獲得した知識が認知コアの邪魔をし、モデルが学習データに過度に依存し、データの多様体からはずれた環境での適応能力が低下するおそれがある。 計算機が実現するAIは人間に比べれば完璧で膨大な記憶容量を持っているが、むしろこのような完璧な記憶が認知能力、抽象的理解の獲得への妨げとなっている。 むしろ学習中に記憶容量を制限することでAIは情報を検索する必要に迫られ、単なる記憶ではなく、アルゴリズムに基づいた思考と行動を強制することになり、これにより汎用的な知性の獲得につながり可能性がある。 認知コアはおそらく10億パラメータ程度かそれより小さいモデルで実現され、その他の情報は外部参照で実現されるだろう。 強化学習もフィードバック量が少ないストローで学習情報を吸い上げるようなものであり、何百ものアプローチを試み、偶然正解か不正解にたどり着いたかを元に全経路を強化するものである。 理想的には経路中のどのステップが問題があったかといったような内省を行い、効果的に修正する必要がある。(いわゆる信用割当問題) しかし、現在のLLMの出力は多様性がなく、LLMに内省させた修正によって学習していくとモデルは静かに多様性を失っていき一つの状態に収束する崩壊を起こす。 ちなみに、人間もこのような「収束崩壊」は遅す。年齢を経る毎に社会規範に過剰適合し、思考の停滞を起こす。今のLLMはデータに対し過剰適合し、このLLMの出力を元に学習しても多様性が失われ続けていく。 さらに、LLMが経路途中の状態を評価する問題(いわゆるProcess Reward Model)は真の汎化性を問われる。現在だと方策側が報酬モデルの穴をつきハックされ、全く意味のない状態に陥る。この場合報酬モデルは真の汎化モデルが必要となる。 この実現に向けた大きな課題はモデル出力が多様性が限られていること、また認知的要素を抽出できるように学習データを精選していくことである。 また、過去の経験から90%の確率で動作するようなデモ状態から99.99..%のように信頼性の高い製品へと進化するまで(KarpathyはTesraのAI部門責任者を長年勤めていた)には継続的かつ膨大な労力が必要になる。 このような中で、仕事が瞬時にAIに代替されるのではなく、自律性スライダーとよばれる段階的な変化がおきる。AIは定型業務の80%を処理し、人間はAIを監督するとともに、最も複雑な20%のケースを行う。AIが99%を自動化した場合も残り1%を担当する人間こそがシステムのボトルネックとなり、その価値が飛躍的に高まり、給与が大幅に上昇する可能性するある。 AIが経済に与える影響がコーディング分野に集中しているのは、コードがテキストベースの形式であり、LLMが容易に統合できるインフラ(IDE、バージョン管理など)が整っているためである。また、いまのAI導入の流れはこれまでみてきたようにコンパイラやコードエディタの流れと同じで新しい話しではない。私達は抽象化の階層を上昇させ続けている。 今後このような自動化の漸進的な進展が多方面に進んでいき、デジタル作業だけでなく、物理的な作業においても自律的な存在がより多くの役割を担う。社会のあらゆる場所に技術が浸透するにつれ、それを理解できる人は減少していき、私達が作り上げたシステムにせいする制御を失っていく状況がおきてくる。 こうした世界は単一の支配的なAIではなく複数の自律的システムが競合する未来が登場する。このシステムの中には暴走するものもあれば、それを阻止するようなシステムもあり、結果として自律的な活動の集合体が混沌とした環境を生み出すだろう 。 超知能による経済成長が実現されるとしたら、現在は単一の超知能がサーバー上で新たな技術を考案するという単純なモデルがあるという見方がされがちだが、そうではなく、非常に高度な知能を持つ人間のような思考主体が何十億も存在し、独自の新製品を開発、経済システムにどのように組み込まれるかを自律的に模索している状況になるだろう。 これらのAIシステムは高度なスキルを持つ移民が経済に統合されるのと同様の形で社会に組み込まれていくだろう。産業革命の場合も魔法のような何かがおきたわけではなく100年近くをかけて様々な変化が同時多発的におきる。 AIによって認知的オーバーハング(人間社会やAIシステムが潜在的に持っている認知的試算が人間の限界のせいで活用されていない状態)が解放されることで経済成長がみられるだろう。 もう一つ今のLLMの問題として、人間の文化に相当するものが存在せず、開発における大きな障壁となっている。LLM同士が共同で文書を作成したり、知識を伝承する仕組みができていない。LLMが書いた本を他のLLMが読んで感銘をうけたり衝撃をうけたりするようなものがない。 複数のモデルが作業しながら内容を随時更新できる巨大な編集可能なメモ帳なようなものがない。 これは今のLLMの認知能力が幼児レベルにとどまっているためである。博士レベルの試験問題は合格できるものの、認知能力はまだ初期段階にあり文化を創造できる段階にない。 現在の計算リソースは過剰投資になっているかについては、インターネット上に蔓延する過剰な宣伝に対しては悲観的だが、昨年まで存在していなかったような製品や、製品に対する圧倒的な需要がうまれているが、新しい計算リソースを活用できるといったことから楽観的であり、これまで述べた課題も解決可能としちる。 一方、技術の真の可能性と実現時期について、適切な認識を持つことが重要だと考えている。 コメント === 現在のAIの進展や今後の課題に対して正確に述べており、私も殆どの部分で同意する。技術課題については非常に明快に現在の問題点がまとめられている。 特に認知コアとよんでいる部分はまだ人が見つけていないような学習アルゴリズム(おそらく今後も人自身は設計できずAIに発見させることになる、それを後で解明することはできるだろうが)を獲得するためにどのようにAIにショートカットさせずに学習させられるかが重要となるだろう。 また多様性が一つのキーワードになると思われる。現時点でも報酬モデルを設計する際には、人が書いた多様なプロンプトによって対象を多面的、多角的にみるような報酬モデルを使うことで性能向上が図られているが、限界がある。均質的なモデルをどのように多様なモデルに変えていけるだろうか。人の場合は先天的にも生得的にも多様性を得られるようになっている またここでいう多様性も、本当にランダムでは意味がない。意味のあるような領域でどのように多様性はどのように増やしていけるか。 これまで技術進展について、人は短期的には楽観的(すぐに簡単に、実現されるだろう)、長期的には悲観的(実現されたときのインパクトを低く見積もる)になることを繰り返しており、今回のAIもその真中あたりにいると思われる。楽観的、悲観的なところの間のバランスをとることが重要と思う。
2
116
496
79,201
AlphaGeometryは国際数学オリンピックの幾何問題を従来の金メダリストと同レベルに解ける。1億問の問題を人工的に生成し、仮説と結果の後に証明を後続した文字列を作り、LLMを学習。演繹エンジンを使って証明し、それが詰まった時、有用な途中目標をLLMが追加し協力して解くdeepmind.google/discover/blo…
139
465
76,812
脳の大脳新皮質の学習は100ミリ秒未来の予測と実際との誤差を教師信号として学習される説を提案。視床枕が予測を映し出すスクリーンの役目を担い、α波に従って予測と実際を切り替えその誤差が各領域に伝搬され逆誤差伝搬法と同じ更新がされる arxiv.org/abs/1709.04654
1
196
470
AIを使って材料開発研究が促進されるか米企業の1000人超の研究者で数年間の調査を行った。AIを活用した研究者は従来より44%多くの材料を発見し、特許申請も39%増加し、より新規性の高い材料も見つけられた。下位1/3の研究者に改善はみられず、トップ研究者の成果は倍増した。 aidantr.github.io/files/AI_i… === AIを実際活用することで研究開発が促進されるかを調べた(私が知る限り最も大規模な)調査である。 AIツールは目標の特性を示したらそれに合わせた化合物を生成する(おそらく拡散モデルベース)。企業は米国に拠点をおき、ヘルスケア、光学、工業用製品に強い企業で学位を持つ多くの研究者を抱えている。 この研究で興味深い結果としては ・実際に生産性が上がったのは元々生産性の高い(スキルの高い)研究者で、実際にでてきた材料が有望なものかを正しく判断できる人達であった。一方、低スキルの研究者はAI提案をそのまま使用する傾向があり、誤った候補をそのまま調査するのに時間を浪費してしまった。評価スキルがAIを活用できたかどうかに一番効いていた(ちなみにこれは今回のAIツールが候補を生成するタイプであったからともいえる) ・上位10%の研究者は発見率が81%も増加している。 ・AI導入後の最初の6ヶ月で顕著に増加し、その後安定する傾向があった。特許申請や製品プロトタイプは6~12ヶ月後に最大の効果を示した。 ・ちなみに、過去他のツール導入では1人あたりの研究成果はむしろ減少しており、今回のAIツールの効果は大きかった ・今回導入したAIは主に「アイディア生成」タスクを自動化した。研究者はAI導入前は時間の約4割をアイディア生成に費やしていたが、導入後はわずか16%まで減少した。一方、判断タスクは23%から40%に増加した ・しかし、研究者の満足度は44%低下した。これは創造的な仕事が減り、日常業務がルーチン化したこと、自身の専門スキルが十分活用されていないと感じたためである。一方、AIが生産性向上に寄与するという信念は強化され、新しいスキルの習得に対する意欲も高まった === 自分の感想 自分の考えとしても、(少なくとあといくつかブレークスルーが起きない限り)AIが人の研究を完全に置き換えるものにはならないと思うが、生産性をあげ、特に既にスキルが高い人の生産を倍や数倍上げられるという感覚は一致している。今より生産性の格差は増えると思われる 今回導入したのは候補を生成するタイプのAIツールであったが、近年では生成した候補を判断・評価するようなツールなども登場しており、「アイディア生成」から「判断」に仕事がうつったのはたまたまと思われる。むしろAIは判断の方が向いている場合が多いのではとも思われる。自分とは異なる視点や立場で考えた場合にどうかとか、自分の異なる専門知識を持った場合の判断などは役に立つ場合が多いのではないかとも思われる 1000人分の研究成果が40%改善されるというのはかなり大きなインパクトといえる(費用対効果や競争力としても大きい)。 一方満足度が低下していることは実際にこうしたツールが普及していく上では問題では大きな問題であろう。どのように研究者がこうしたツールを使った上でも自分の能力を発揮し協調できるかといった部分は今後の大きな課題といえる
1
190
467
73,951
これまで画像の最大の訓練データは百万枚のImagenetのままであった。訓練データを3億枚に増やし50GPUで2ヶ月かけ学習した結果,精度はデータ数の対数に比例して向上し続け、学習済みモデルは各タスクで有効と分かった arxiv.org/abs/1707.02968
203
460
RAGを行う際チャンクに分割し、その文脈をLLMで要約させて結合させた上でそれらの埋め込みベクトルとTF-IDFを計算。それらを組み合わせて候補を出した後リランキングすることで大きく性能改善する 今もBM25 (TF-IDF)が有効なのがすごいが、分かち書き前提の問題は未解決かanthropic.com/news/contextua…
1
74
471
34,267
NNの効率/精度において枝刈りと量子化のどちらが優れているか理論解析、実験結果で比較し、量子化が常に優れていることが示された。しかも、比較に使った枝刈りは非構造化枝刈りでありHWで性能が出せる構造化枝刈りではさらに制約があるため差が大きくなる。arxiv.org/abs/2307.02973
74
457
58,195
Replying to @alfredplpl
LLMがこのようなことができる(もしくはできない)ことを説明する研究は既に多くでていると思います。LLMが次の単語予測タスクを目標とした自己教師あり学習を介して様々な能力を獲得でき、特に言語については言語自体が持つ構造(特に構成性)も利用していること、またin-context learningが自己注意機構を利用したメタ学習によって実現していることがわかっており、諸現象の全てではないですが重要な部分の多くはそれを説明できる材料はでていると思います。逆にhallucinationが起きる原因も検討がついています。もちろん未解決な問題もあります。
1
105
463
85,238
LLMはパラメータ一つあたり2bitの情報を様々な後続タスクに利用可能な形で格納できる。他の結果も含めべき乗則の論文以来の重要な結果と思う。人工的に三つ組(名前/属性/値)のデータを設計し様々な規模、アーキテクチャで検証。7Bモデルでもwikipediaと全教科書情報は全て覚えられる。arxiv.org/abs/2404.05405 以下いずれも興味深い結果 この論文では知識を三つ組と単純化して扱っている。 wikipediaは45億単語、英語の教科書情報は重複を除いて10万冊分ぐらいあればカバーでき、1冊16万単語とすれば、16億単語ぐらいと考えられる。あわせて200億単語であり、それらに含まれる知識は140億ビットよりは少ないと考えられる、よって2bit/パラメータであれば、70億パラメータあれば十分覚えられる。 この知識密度は学習中に各知識あたり1000回触れないと(1000-exposure)達成できず、また毎回異なる表現をした方が良いことがその前の論文でわかっている(同じ文章に何回も触れると文章を丸暗記してしまう)。実験では人工的に異なる表現を生成している。 また100回しか触れないと1bit/パラメータまで記憶可能な容量は落ちる。よって学習中にあまり遭遇しない稀な知識は記憶効率が悪い。 2bit/パラメータは普遍的であり、記憶の重要要素と思われていたMLPブロックを完全に除いても同じように達成する。これより、自己注意機構がこれまでの想定と違って記憶の役割も果たしていることがわかった。 一方100-exposureの場合はMLP層が無いと記憶効率が急激に悪化する。MLP層が少ない知識の露出回数で覚えられるが、記憶容量としてはMLPも自己注意機構も変わらない。 詳細に実験しているわけではないが最後の層の除く実験ななどから知識は一箇所に格納されているわけではなく、NNの全体に散らばっているとみられる。 最近の多くのLLMで使われているGated MLPは記憶容量を悪化させ、学習も不安定化させる。他の活性化やトーカナイゼーションの違いは記憶容量には関係ない(GPT-2でもrotary埋め込みを使っている限りは最新のアーキテクチャと変わらずGated MLPを使ったモデルより優れている)。今後のNN設計に影響を与える結果。 量子化はint8までは記憶容量に全く影響がでない。int4から記憶容量が急激に悪化する。別の言い方をすれば2bitの情報をNN内で8bit(int8)で格納すれば後は自由自在に使えるような形になっており、NNを後続タスクで自由に使うための索引と考えた場合、索引オーバーヘッドの限界が4倍。学習中から量子化を考慮していればもっと可能かもしれない。 MoEで32エキスパートを使った場合、推論時に8.8%しかパラメータを使わないが、容量は1.3倍悪化、100-exposureは1.5倍悪化するだけで抑えられる。 また、学習データに質の悪いデータが含まれている場合、記憶容量に大きな影響があり、100-exposureの場合20倍も記憶容量が悪化する。 これを解決する工夫は簡単で質の良いデータ(wikipediaや教科書など)の前に、特殊トークンを付けて質の良いデータとLLMに教えておくだけで記憶容量はほぼ最適に改善される。 == 以下感想 == 現実世界のデータの場合は同じ知識が何回露出しているかはべき乗則のようになっており、有名なものは100~1000回以上出現しているが(日本の首都は東京とか)大部分の一部しかしらない分布の末端の知識は100回よりもずっと少なく、10回とか1回とかがほとんどと思う。現在のLLM学習では1~2epochである。 今後はNNを少ない回数の露出で記憶できる工夫をするか、知識を濃縮して再生成して覚えさせるかが必要。 また今回の話はTransformerの場合の限界であり、これがもっと普遍的な話かはわからない。一方様々なアーキテクチャで全く同じ結果なので何か理論的な背景があるかもしれない。 小さなLLMの場合は良質なデータに加えて人工的にきれいなデータを作り、さらに重要な知識は元データで出現回数が少ないものは何回も露出(言い換えて)させることで覚えさせることで記憶できる。 例えば、論文中の(2.1)の例は75トークンで7つの知識(三つ組)が含まれており、知識一つあたり10トークンぐらいで表される。一つの知識を1000回露出するには1万トークンあればよいことになる。学習データ1兆トークンあれば、1億個の知識を1000回露出できることになる なお、本論文では三つ組で表される知識についての評価で他の形の知識や、推論能力など別の話。
114
467
73,688
NNが学習する関数をフーリエ解析で調べた結果、NNの重みが有限ならば、周波数が大きい成分は急速に減衰していくことがわかった。NNは単純な関数を学習するようにバイアスがかかっており、複雑な関数も単純な関数の組み合わせで表現することで汎化性能の獲得に貢献している arxiv.org/abs/1806.08734
149
448
言語モデル(LM)が意味を理解しているのかを調べるため、プログラムに対するLMを構築し、LMの内部状態からプログラムの意味を推定する実験をした結果、単語予測精度と意味推定精度の改善ペースがほぼ一致し、またLMが将来に何を生成するかを考えていることもわかった。arxiv.org/abs/2305.11169
2
95
448
60,130
自己位置と方角を入力とし移動を目的地に到達するRNNで強化学習すると高い成功確率で到達できる上に内部状態に地図が自動的に構築される。記憶が重要な役割を果たし、一度到達した時の記憶を他に移植すると、ショートカットとかもできる。個人的今年ベスト3に入る面白い論文 openreview.net/forum?id=lTt4…
1
76
451
拡散モデルの本のサポートページを公開しました。この本は拡散モデルの数理の本質を理解することを主眼におき、スコア、エネルギーベースモデル、潜在変数モデル、連続時間(SDE/ODE)表現、対称性との関係、また特性を活かした様々なアプリケーション例を紹介しています。 hillbig.github.io/diffusion-…
1
80
454
73,915
先日のAI・人工知能EXPO2024での講演資料「生成AIの進化と今後の展望」を以下に公開します。LLMの仕組み、PFNグループにおけるLLM開発の取り組み、今後の展望、特に学習データの改善、知識の取り込みなどについてまとめています。興味のある方は見てみてください。hillbig.github.io/AIEXPO2024…
103
444
71,737
LLMはたとえ訓練データが正しくてもHallucination(幻覚)を起こす。これは正しく較正された予測分布はGood-Turing推定と同じく、訓練中に1度だけ観測した事実と同じ確率を未知の事実に割り振るためである。幻覚低減には事前学習後、別の学習が必要であることを示すarxiv.org/abs/2311.14648
1
102
447
59,834
CEDEC 2023での基調講演「AIはゲームをどう変えるのか」の講演資料を公開します(講演中みせたデモ動画などは含まれていませんのでご了承ください)。言語モデル、拡散モデル、ニューラル場(NeRF)、事例などを中心に紹介しています hillbig.github.io/CEDEC2023_…
99
443
81,958
BitNet b1.58はBitNet(nitter.app/hillbig/status/1…)の重みを2値でなく3値{-1, 0, 1}で持ち学習。3BでPPLと後続タスク性能で元のLLMに匹敵か超える性能を達成。活性値は8bitで持つので行列乗算は効率的なINT8加減算に置き換えられる。arxiv.org/abs/2402.17764 == コメント: 推論時の重みは3値でできるが、学習時には学習安定性のため重みやoptimizerの状態は高精度で持つ必要がある。計算の直前で量子化する。 "1.58"の詳細はないが、log 3_2 =1.58 (ternary値のビット数)からきている(←ご指摘ありがとうございます) 重みのうちどのくらいの割合が0なのかは不明。それで計算量も大きく変わる 現在主流の学習後量子化でなく、学習時から量子化awareにする必要がある。 同じパラメータ数で性能で勝った例は初めてであり、3Bまで大規模して初めて上回る。3Bより大きな場合の傾向は不明だが、さらに勝つ可能性はある。
BitNetはTransformerのLinear(MLPとProjection)の重みを1bit、活性値は8bitで学習し利用。学習後量子化に比べ高性能を達成。スケール則が成立。量子化前に正規化、学習時の重みや最適化法状態は高精度で保持し(Linearに使うのは量子化後)、学習率を大きくするなど工夫。 arxiv.org/abs/2310.11453
136
448
103,969
Deep RL bootcampの講義資料、ビデオ、サンプルコードが公開されました。最新の深層強化学習を一通り学ぶことができます。(Chainerのよいサンプルコードでもあります)sites.google.com/view/deep-r… sites.google.com/view/deep-r…
121
439
大きなNNほど学習、汎化がうまくいくのは,その一部のネットワークが運良く高い収束性能と汎化性能を持つ構造と初期値をひく確率が高くなるからという”宝くじ仮説”を提唱。重みを大きさを元に枝刈りして同じ初期値から学習しても同じ性能を達成できる。arxiv.org/abs/1803.03635
147
440
拡散モデルが表現学習できる理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習すること"のみ"重要だった(画素空間ではダメ)。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成できる arxiv.org/abs/2401.14404
68
431
43,653
グラフを使った機械学習が2022にどうなるか予測。幾何の導入がさらに進み、曲率による特徴付けされる。まより進んだ対称性を導入するため圏論が必要となる。微分方程式を離散化した形でのGNNの定式化が進む。応用として創薬や化学に加えて強化学習やシミュレーションが増える towardsdatascience.com/predi…
1
75
431
NNの学習はハイパーパラメータを座標軸、学習結果を色とした時、美しいフラクタル構造を作る。これは従来のフラクタル生成手法と同様、学習結果は同じ関数を反復適用した結果得られるためである。カオス的であり、勾配降下法によるメタ学習が難しいことも視覚化できている sohl-dickstein.github.io/202…
104
432
44,261
大規模言語モデルがIn-Context Learningをどのように実現しているかがわかってきている。Transformerは事前学習時に、プロンプトで与えられた事例を元にその場で前条件付勾配降下法による最適化した解が得られるよう学習している。(その場で学習できるよう学習している) 例えば、解析しやすいよう自己注意を線形とし、入力がランダムなガウシアン入力、線形回帰の問題である場合、事前学習の最小解は文脈中事例を訓練事例とした勾配降下法の1ステップを実現し、さらに入力の共分散行列が単位行列でない場合は、前条件付勾配降下法を実現することがわかった arxiv.org/abs/2307.03576 さらに、勾配流解析を使った解析によって、こうした最適解は事前学習中の勾配降下法によって到達できることも示されている arxiv.org/abs/2306.09927(前紹介済み) そして複数層からなる場合、事前学習の停留点(これらは上とは違って実際到達できるかは未証明)は、勾配降下法を複数ステップ実行するような解に対応し、その場合、各ステップ幅も自動調整され、そのうちいくつかはニュートン法に対応することがわかった。arxiv.org/abs/2306.00297
1
66
439
76,612
クロスエントロピー損失関数を使いSGDで学習した場合、訓練コストが0に近づいても学習し続けるとL2マージン最大化の解が得られ暗黙的な正則化効果で汎化する。訓練コストや検証コストが下げ止まっても学習をやめてはいけない。arxiv.org/abs/1710.10345
1
130
426
多くの物理情報(画像、動画、音声、幾何)は微分方程式の解とみなせ高次情報も構造を持つがNN陰関数表現でReLUを使うとその二次微分が0のため高次情報が失われる。sin関数を活性化関数として使うSIRENは詳細な表現ができ学習に成功する。重要な結果vsitzmann.github.io/siren/ piped.video/Q2fLWGBeaiI
1
92
427
ハエの嗅覚では、1層目が正規化、2層目が入力50から出力2000の疎(1個あたり6つに射影)かつ二値の乱択化射影、三層目がWinnerTakeAllで上位5%を残すことでLSHを実現。驚くことに既存のLSHより高精度。広げて疎にするアイデアのは参考になる biorxiv.org/content/early/20… science.sciencemag.org/conte…
150
421
バッチ正規化はなぜ汎化性能を改善できるか調べた結果、最終層直前の特徴量のノルム(EL2)が大きくなるのを抑えていたのが最も重要だった。単純にEL2を罰則項として加えるだけでバッチ正規化の汎化性能をほぼ再現できる。単純で有効な正則化方法がまだありそう openreview.net/forum?id=d-Xz…
75
422
2035年にAIでどのくらいの計算需要が生まれるのかを推定する必要があって、いろいろ情報や自分なりの考えを元に考えています。以降AI学習に限った話です。 AI学習に限って考えると、現在は1年毎に計算規模が5.5倍になる"Deep Learning Era"が2010年から15年続いている(epoch.ai/data/notable-ai-mod…)一方で、最大の計算クラスタ規模(数十万台)がスパコンの限界に近づいており、これがこのまま続くかは怪しいです。 この成長トレンド(2025年を20万台とおいて)をそのまま2035年まで外挿するとH100が4000億台規模という途方もない数字になります。 年間5.5倍のうちチップの貢献分が年間1.5~2倍、システム側の貢献分(チップをたくさん集積する)が年間3倍程度ですが、システム側のこれ以上の改善は電力やコスト面で現実的ではないので(最大100万台規模で頭打ちになるのでは)、数年後はチップが性能向上の主役となると考えられ、年率2倍成長ぐらいまで落ちるのではないかと考えられます。 また、演算やメモリでの電力あたり性能向上ができるかが鍵となると思われます。今に比べて10年で計算あたり電力やデータ転送あたり電力を100倍改善し、同じ電力で100倍の性能を目指すということではないでしょうか。 まとめると、AI学習に使われる(最大規模の)計算資源は、これからは年あたり2倍成長に落ちる。2035年は性能が100PFlops, 500TB/sのメモリ帯域を持ち1kWで動くようなチップが登場している。それが200万台規模で集積され、全体の電力は2GWで稼働、全体は200ZettaFLOPS(2.0*10^23 FLOPS)となり、このようなものでAIモデルが学習されていると推定できます。  今後もう少し考えてみると修正する可能性は大ですが・・ こうした話は想像を超えるところでなかなか難しいですが、実は、2015年にこうしたAIの計算需要の予想をしたことがあり、私が作った資料(例えば meti.go.jp/policy/mono_info_… のp8など)が参考資料として10年ぐらい、いろいろなところで使われていました。 10年目の2025年で答えあわせをして反省すると(2035年までみたらあうかもしれませんが)、用途としてはここにあげていたものよりは言語モデルという予想しなかった分野で巨大な需要がうまれました。必要な計算量としては大体あっているか、むしろ過小評価して最大規模は100Exa Flopsぐらいの規模になっており、そうじゃないところも1~10Exa Flopsを使う機会はでているのかなとおもいます。 作ったときは、将来こんなに計算力使うのかというのは当人も半分信じられない気持ちでしたが結果としては、現時点で5年ぐらい前倒し、2035年時点では10年前倒しになるかなとおもいます。
4
94
417
63,925
TransformerはKVキャッシュを状態として持つRNNとみなせ学習済みモデルもRNN化できる。従来は最も古い状態を捨てて固定サイズにするが、TOVAは毎回attentionが一番小さかったkvキャッシュを捨てる戦略で状態を固定サイズにし、元の1/8のキャッシュで同じ性能を達成できる arxiv.org/abs/2401.06104
76
407
68,903
NNなどは関数がブラックボックスの問題があったが、テストデータの判断の際最も影響のあった訓練データを影響関数を使って求めることができる。影響関数には損失関数のヘシアンが必要だが高速に求める方法も提案。ICML ベストペーパー arxiv.org/abs/1703.04730
1
105
414
辺数m, 頂点数nの有向グラフ上の単一始点最短経路問題に対して、1959年に発見されたダイクストラ法のO(m+n log n)が最適であり、特に「ソートの壁」n log nを破れないとみられていたが今回、これを破る決定論的アルゴリズムが見つかった。無向グラフでも決定論的で破った最初のアルゴリズムといえる ダイクストラ法は、最短距離が決定した頂点集合(完成済み)とその周辺にある頂点集合のフロンティアを維持し、フロンティアはヒープで管理する。ヒープから最短距離の頂点を1つ取り出し、そこから出る辺をすべて展開しフロンティアを更新する。このヒープを更新していくことからO(n log n)のソートの壁を突破できないと考えられていた 主要アイディアは、このフロンティアSを、ある適当なパラメータkをおいたときの1/kに縮小する方法である。Bellman-Ford法をSに対してkステップ分だけ実行する。 Sからkステップ未満で到達できる頂点は完成済みとみなし、完成済みにいれる。 それ以上のステップを必要とする頂点については、それらの最短パスは必ずSにある距離的に重要な代表点(k個以上の頂点を持つ木の根)を通ることが示せ、この代表点のみをフロンティアにいれる。 これにより、フロンティアのサイズを劇的に抑えられる。 実際のアルゴリズムは動的なフロンティア管理を効率的に行えるよう分割が含まれたりとかなり複雑である。 また、実用的なアルゴリズムかというと、定数項を大きステ、実用上ありえないぐらい大きなn, mじゃないと効果が出ない。一方、最も基本的なアルゴリズムの一つで理論的に限界だと思われていた問題の計算量が破られたことの意義は大きく、ここからいろいろな発展がうまれるかもしれない。 本研究は計算科学理論のトップ学会であるSTOC 2025のベストペーパーに選ばれている
2
131
411
42,629
Transformerの自己注意は関係の無い対象にも注意がノイズのようにあたる。Differential Transformerはノイズキャンセルのように2つの独立した注意の差で、注意量を表し、高いS/N比を達成する。パラメータ数、学習トークン数が40%弱小さくしても同じ性能を達成できる。arxiv.org/abs/2410.05258
1
79
408
33,730
深層強化学習は人の学習と比較して大量の学習データが必要だと指摘されていた。原因は逐次的なパラメータ更新と弱い帰納バイアスにある。しかし近年は、前者はノンパラに近いエピソード記憶を使った手法、後者はRNNが暗黙的に実現するメタ学習で解決されてきている cell.com/trends/cognitive-sc…
91
405
機械学習が生物学、医学、健康にどのように使われるかについてのチュートリアル。これらのデータを扱う際の注意点, DNA, RNA, タンパク質の解析/理解にどのように使えるのか、診断、逐次的意思決定で強化学習がどのように使えるのか 。深層学習が多くの問題で使われてきているslideslive.com/38921497/mach…
97
398
従来の機械学習の考えでは過学習しない適度な大きさのモデルが最適だが、ある条件下では訓練誤差ゼロからさらにモデルを大きくしたほうがテスト誤差が小さくなる二重降下現象が起きる。NN以外の他の多くのモデルでも起きる arxiv.org/abs/1812.11118 arxiv.org/abs/1903.07571 arxiv.org/abs/1909.11720
75
401
様々な形状の点群の生成モデルとしてPointFlowを提案。形状を表す潜在変数を生成し、それから連続正規化フローのダイナミクスを作り、それに基づき事前分布の点群を目的の形状に変化させる。変分法を使った最尤推定で直接学習可能 arxiv.org/abs/1906.12320
92
387
1層のTransformerはコンテキスト中の連想記憶を再現でき、教師なしのインコンテキスト学習を実現しているといえる。Transformerは文脈中の事例を元に、それを記憶するモダン連想記憶に基づくエネルギー関数を暗黙的に構築し、クエリ近くの局所解に1ステップで到達できる勾配降下法を実行し連想記憶を実現しているといえる。 これはTransformerがKey, Valueで文脈を記憶し、それらを呼び出しているという意味ではなく、文脈中の事例をモダン連想記憶の枠組みで記憶し(汎化しうる)、その記憶装置の元で記憶を呼び出しているということになる。 この研究でははじめに、雑音除去の問題設定における、インコンテキスト学習において、データ分布が線形多様体、非線形多様体、ガウス混合(クラスタリング)の場合、それの最適なベイズ最適予測解を導出した。 (論文中では深く言及されていないが、このような最適なベイズ最適予測は、拡散モデルの最適解の議論と一致する) 次に、このようなベイズ最適解を求められるようなTransformerのパラメータ設定(W_q, W_k, W_v)が存在することを示した。ここではそのようなパラメータ設定が存在することのみ示し、Transformerの学習でそれに到達できるかについては述べていない。複数タスクの学習の中で必要とあればこれらが学習されるということとおもわれる。 なお、実際の学習から得られたAttention層が、この連想記憶を実現するようなパラメータに近づくことも述べている。 最後にこの推定はエネルギー関数(logsumexp エネルギーでEnergy Transformerで使われるものと同じ)と示せる。つまり、つまり、文脈依存の連想記憶をその場で実現し、クエリに応じて記憶を呼び出しているとみなせる コメント Transformerの自己注意機構の1ステップがエネルギー関数の勾配降下法に一致することはEnergy Transformerなどで言及されていたが、今回はインコンテキスト学習として、それが捉えられるとしめしたことが新しいといえる。 さらに、今回はコンテキスト中のサンプルでの連想記憶を実現できることを示しているが実際は通常の学習中に得られた記憶(MLP Blockなどに格納されている長期記憶)と組み合わせた連想記憶がおきうる。 本研究は既にある知見を組み合わせて得られた結論といえるが、この新しい視点(インコンテキスト学習が教師無しの連想記憶を実現しうる)は現在のTransformerの理解と限界を知る上で重要である
1
61
397
55,538
PLaMo翻訳を使うと、長文で高度な専門用語や複雑な文章であっても正確かつ読みやすく訳すことができます。下の左の文章はWikipediaのQuantum Chemistryの英語ページを翻訳した結果です。 右はLex Fridman podcastのチンギス・カンの回を翻訳した結果です(24万文字)。 リンクはスレッドにおきます
1
69
393
48,228
RNNは時間方向の依存があるため学習時、並列化できず遅かった。minGRU, minLSTMは、元のモデルから時間方向の依存を除去し、不必要な非線形(tanh, sigmoid)を除去。mamba同様、並列スキャンで計算でき200倍近い高速化を達成。arxiv.org/abs/2410.01201
58
390
31,608
GPT-4.5の事前学習に関する動画において再び話題となっていた「LLMの事前学習は圧縮することによって学習を実現している」というコメントについて、その参考としてよく参照されるIlya Sutskeverによる2023年の講演「An Observation on Generalization」を改めて見直し、以下に要点をまとめてみた。 教師あり学習については、理論的な枠組みが比較的よく整備されており、たとえばi.i.d.の仮定などの条件のもとで適切な目的関数を設定すれば、汎化性能をある程度理論的に予測することができる。実際、訓練誤差とモデルの複雑さの和を最小化することで、テスト誤差も一定の確率で最小化されることが保障されている。 これに対し、教師なし学習においても同様の理論的保証が可能かといえば、2025年現在においても明確な理解は得られておらず、目的関数の最小化が下流タスクの性能向上にどのように寄与するのかについては、依然としてよくわかっていないのが実情である。Sutskeverの講演では、この問題に対する一つの仮説として、教師なし学習は「圧縮」を通じて知識を獲得しているのではないかという見解が示された。 たとえば、2つのデータセット X, Y と、圧縮器 C(data)を考える。圧縮器は入力されたデータを圧縮し、その圧縮後サイズを|C(data)| で評価する。このとき、良い圧縮器であれば以下のような不等式を満たすはずである: |C(concat(X, Y)) | < C(X) + C(Y) + O(1) ここで concat(X,Y)はXとYを連結したデータを意味する。この不等式の直感的な意味は、XとYを個別に圧縮するよりも、それらを結合して圧縮したほうが、共通するパターンをより効果的に利用でき、より短い表現が可能になるというものである。 すなわち、圧縮後のサイズを小さくするという目的を通して、圧縮器はデータに共通して潜むパターンや法則性を抽出することになる。特に、そのパターンが複数のデータ点に共通するものであれば、より強力な表現を獲得できることになる(上記の例では2つのデータのみを扱ったが、実際の学習では無数のデータが存在する)。 Xが日本語データセットでYが英語データセットであったとしよう。この場合、良い圧縮器であれば日本語と英語に共通するパターンや知識を用いて圧縮することができるはずた。 コルモゴロフ複雑性 K(x)は、データを最も短く表現するプログラムの長さとして定義される理論的な概念であり、最も理想的な圧縮率を表す。ただし、K(x)は一般には計算不可能であり理想的な概念である。任意の計算可能な圧縮器Cに対しては、以下の不等式が成り立つ: K(X) <= |C(X) | + K(C) + O(1) これは、任意の圧縮器を用いて圧縮したサイズの上限は、圧縮器自身の記述の長さと圧縮後のサイズの和になる、ということを示している。 このコルモゴロフ複雑性は条件付きの形でも定義でき、外部情報 XXX を用いて YYY を圧縮する条件付き複雑性は次のようになる: K(Y|X) <= |C(Y|X) + K(C) + O(1) また、連鎖則により同時複雑性は次のように書ける: K(X, Y) <= K(X) + K(Y|X) + O(log K(X|Y)) この式は、XとYを同時に生成する最も短いプログラムの長さは、Xを生成する最も短いプログラムと、Xが与えられたときにYを生成する最も短いプログラムを用いた場合とほぼ同等であることを示している。 ここで、Xを教師なしの学習データ、Yを未知のラベルデータと考えると、理想的にはK(X, Y)を最小化できるようなモデルが作れればよいがYが未知であるため、現実にはXのみを最小に記述し、さらに K(Y∣X)も小さくなることが期待されるようなプログラムを求めることが目的となる。 もちろん、コルモゴロフ複雑性を達成するような最小プログラムは、計算不可能である(任意のプログラムが停止するかどうかは一般には決定できない)ため、実際には求まらない。しかし、多数のパラメータを持つニューラルネットワークを「無数の圧縮器の候補がある中から効率的に探索可能な圧縮器」とみなし、最尤推定によって学習することによって、理想的な圧縮には及ばずとも、類似の効果が得られると考えられている。 つまり、「圧縮する」という目的関数を通じて、モデルは複数のデータに共通するパターンを抽出するようになる。そしてこれは、教師なし学習において、目的タスクのデータと関連していれば特に有効である。 (連鎖則に基づけば、まず学習データを圧縮できること、未知のデータも適応して圧縮できるようになっているようになっていれば良い)。 補足:本講演に対する現在(2025年)の私見 === 教師なし学習において、「情報を圧縮する目標が知能を獲得する重要な概念である」という考え方は、現在においても妥当性を保っていると考えられる。この理念に基づき理論や実践はさらに洗練されてきており、同時にいくつかの課題も明らかになってきた。 特に優れた圧縮器の探索は常に困難を伴う。今のTransformer+SGDはかなり優れているが最適ではなくデータ効率が悪かったり最適な圧縮器とはなっていないだろう。また、目的関数が適切であったとしても、それによって良好な表現が得られるとは限らない。たとえば画像領域では、復元損失だけでは十分に意味的な表現が獲得されないことが多く、他の損失関数との組み合わせ(例:コントラスト学習)が有効とされている。 この問題に対しては、アーキテクチャや最適化手法の改良のみならず、データ生成や知識蒸留などの補助的手法による支援が現実的な解決策となるだろう。 また、データ枯渇が深刻化し、データ効率性がより重視されるようになれば、複数回のデータ参照やデータの組み合わせを通じた学習、さらにはモデルの記述長(圧縮率)そのものが重要となる可能性がある。その際には、単なるパラメータ数ではなく、PAC-Bayes理論的観点から「いかに簡潔なモデルに近いか」を尺度とすることがより正確であると思われる。
6
75
379
45,147
大規模言語モデルPLaMoの学習が終わり日本語向けベンチマークなどでGPT-4を超える性能を達成しました(tech.preferred.jp/ja/blog/pl…)。事前学習からフルスクラッチで構築しています。この成果を元にしたモデルのトライアル利用を本日より開始します。是非試してみてくださいpreferred.jp/ja/news/pr20240…
104
377
98,218
GANの学習で低解像度から徐々に解像度を上げ、生成器と識別器も層を増やしていくと学習が高速、安定化し高解像度の画像が生成できる。よいアイデア。いよいよ現実と見分けがつかない。research.nvidia.com/sites/de… piped.video/XOxxPcy5Gr4
141
367
多くの科学領域でシミュレーションが作られてきたが、尤度が計算できず、観測からの推論が困難で非効率なABCしか使えなかった。近年のML/DLの発展で高次元でも尤度や事後確率分布の代理関数を推定でき、微分可能なシミュレータを使って高度な推論ができるようになったpnas.org/content/early/2020/…
87
372
機械学習研究へのアドバイス。どの問題に取り組むかをよく考える。アイデアはいくらでもあり重要ではない。アイデアより目的志向の方が差別化しやすい。うまくいかないからといってすぐ別の問題に切り替えるのはよくない。新しい知識を得るため教科書や博論をたくさん読む。joschu.net/blog/opinionated-…
1
62
374
数理科学 2024/10月号で「生成AIのしくみと数理」を特集した本が届きました。私が冒頭を書き、各分野を代表する先生方に書いていただきました。各章とも非常に読み応えがあるものになっています。ぜひ手に取って読んでみてもらえたらとおもいます。saiensu.co.jp/search/?isbn=4…
94
365
33,496
“Chainer を振り返って” beam2d.net/blog/2019/12/05/c… @beam2d Chainerのプロトタイプを見せてもらった時や、名前を考えてた時(一応erをつける貢献しました)、様々な概念を名前から1から作りあげていった当時の様子を鮮明に覚えています。彼なしではなし得なかったことだと思います。
2
109
371
Transformerは万能チューリングマシンのシミュレーションや各種形式言語の認識ができる表現力を持つことは示されているが、学習可能であるかは不明だった。今回、線形注意機構においては学習可能であることがしめされた。 この学習可能はアグノスティックPAC学習可能、つまり、解が存在すれば到達できるし、存在しない場合も最も近いものを見つけられるという強いものである。 証明の中で線形注意機構が3次のカーネル法とみなせることを利用している d次元のn個のトークン列Z(行列が各トークンの埋め込みベクトル)からなる場合、線形注意機構は入力列を特徴写像でd^2 * d次元に写像した上で、拡大された空間で線形写像をしているとみなせる。 この特徴写像は(j, k, l)の3つの添字を持ち、系列の次元jと次元kの内積と、最後のトークンのl成分の積で構成される。 このように得られた巨大な特徴ベクトルを線形写像した結果が線形注意機構と一致する。 このようにした上で線形分類/回帰の損失を最小化するような重みを求めた上で、重みをSVDした時、各次元が各ヘッドに対応する。ランクはd^2を超えることはないので、たかだかd^2個のヘッドを持てば線形識別可能といえる コメント === Transformerをカーネル法とみなす研究は多くされているが、その上で学習可能性(PAC的保証)や、得られた結果の考察をしている点は新しい。 また、実験では通常の学習で行われる元の表現上での勾配降下法が似たような結果が得られることも示しているが、実際の分析はこれからである。 実際のモデルでは線形注意機構では表現力や学習能力が足りないということでsoftmax注意機構や、線形でも忘却gate付が使われているがその場合本質的に何か変わるのかは興味がある。
1
66
376
43,352
LLMの生成テキストに電子透かしを入れる手法。直前のトークンから計算したハッシュ値と、乱数生成種を元に、次のトークンを生成する際に、トークン候補をグリーン集合(G)とレッド集合(R)に分け、Gに属するトークンの生成確率のlogitを定数分増やす。このようにして生成された文はGに属するトークンの数の割合が、一般文よりずっと多く、生成されたのかどうかを調べられる。 直前トークンのみ依存するので生成文を途中で切り取ったとしても検出できる。また、logitに定数を加える方式なので、エントロピーが低いトークンは変更されず、高いトークンが変更されるため生成文の品質劣化を抑えられる。そしてこの定数は状況(利用状況やユーザー)に応じて変えることができ、電子透かしの強度を動的に変えられる。 また、手法を開示したとしても、生成時の乱数種さえ隠していれば攻撃者は電子透かしを外すことは困難。 このアプローチ自体はLLM以外でも生成モデル一般に使える ICML2023のベストペーパーの一つ なお、商用サービスではこのような電子透かしがいくつか既に入っていると思われる。 openreview.net/forum?id=aX8i…
1
99
370
81,794
今年のノーベル物理学賞はホップフィールド先生とヒントン先生でした。おめでとうございます。 2人とも現代のAIの中核となるニューラルネットワークの研究開発に非常に大きな貢献を果たしました。拙著のディープラーニングを支える技術や、最近の生成AI数理科学特集でもこのへんは書いています。 成果についてはいろいろな方がまとめるとおもうので突っ込んだ話を。 私も本を書く中で過去の歴史を整理したりいろいろな方から話を聞く中で、ホップフィールドネットワークはその10年前に中野先生や甘利先生が同じアイデアを提案し(英語wikipediaは正確になっている)、また学習の中心となっている誤差逆伝播法も手法自体は甘利先生がそれより前に提案していたり制御分野ではもっと前に見つかっていたということがわかっています(ただ誤差逆伝播法による表現獲得などはヒントン先生のテックレポートが代表と思います)。 これだけでなく同時期には多くの研究者、グループから似たようなアイデアが出ていたと思います。そうした中では研究の功績というのは純粋なアイデアを最初に出したかというだけでなくコミュニティに対して影響をどれだけ与えたかというのも関係しているとは思いました。必ずしもニューラルネットワークが評価されない中で粘り強く研究を続け、多くの教え子を育て論文だけでなく様々な方法でアイデアを広げていく部分では大きな貢献をあげたのだとおもいます。(甘利先生もそうした中では選ばれてもおかしくはなかったかもしれませんが) ヒントン先生は上記だけでなくたくさんの成果があり今のAIで使われている技術に直結していますが、近年では実用的にはほとんど使われていないホップフィールドネットワークが評価されたのは興味深いと思いました。むしろ私としては、より今後の記憶の仕組みとしてホップフィールドに再注目すべきと思っています。容量の面や双方向性などの観点で、今のNNの問題を解決しうると思います。数年後にはホップフィールドを参考にしたモデルが記憶の仕組みの中心を担っていてもおかしくないとおもいます。実際、拡散モデルはエネルギーベースモデルとしてのホップフィールドをその勾配による流れで表した別の実現形態とみなすことができます。また、計算処理、特に深く考えるシステム2とよばれる推論もエネルギーベースモデルが自然と思います。
BREAKING NEWS The Royal Swedish Academy of Sciences has decided to award the 2024 #NobelPrize in Physics to John J. Hopfield and Geoffrey E. Hinton “for foundational discoveries and inventions that enable machine learning with artificial neural networks.”
127
366
64,614