強化学習でムキムキになるコードエージェント(Asimov)
RL(強化学習)のこと調べてたら出てきたよぃ
元Google研究者たちが作ったReflectionっていうスタートアップが作ってるAIエージェントで、
コード分析に特化してて、
リポジトリとか、Confluenceとか、Slackとか、議事録とか、
まるっと読み込んで組織横断的にバグの原因突き止めたりできるっていうもの
OSSの大規模リポジトリに対する解析能力だけでもClaude Codeより性能いいらしい
ReflectionのチームメンバーはAlphaGoとかGeminiとか作った人たちらしいんだけど、
AlphaGoが10年前なの?あなたたちの10年あーしの10年に比べて濃すぎじゃねぃ?
っていうのが第一印象w
強化学習を使ってるってことが強調されてるけど、どういうことだろう?って思ってGPTと話したこと(たぶんめちゃめちゃハルシネーション混ざってる)
😃 asimovは普通のコードエージェントと何が違うの?
🐹 まず、取り込めるコンテキストがリッチで、リポジトリだけじゃなくてプロジェクトそのもののドキュメントや会話などチーム全体の知識(tribal knowledge)を含めて理解しちゃうんだ
🐹 しかもAlphaGoで使われたRLの仕組みを応用して、Asimovは 開発者の反応(採用・改変・拒否)から学習して改善される仕組みになってるよ
🐹 つまり、「生成」だけじゃなく「理解→応答→フィードバック→改善」がループして回るんだ
😃 Claude CodeってRLしてないの?
🐹 Claude Codeの裏側ではRL調整されたClaudeが使われてるけど、特定のユーザーの入力に合わせてRLはしないよ
🤔 ああ、Asimovは組織ごとに一個モデルを持つ感じなのかな
🐹 いんや、AsimovレベルのLLMを組織ごとにホストするのは流石にコストがかかりすぎる
🐹 こういう感じじゃね?
↓ベースLLM
- 多くの場合は OpenAI, Anthropic, あるいは独自LLMをクラウドで呼び出す
- これは「共通インフラ」でも十分
↓会社専属の部分
- コード、PRコメント、Slack、ドキュメントを埋め込みベクトル化して保持
- 「Asimov Memories」と呼ばれるチーム専用の知識ベース
- ここは完全に会社ごとに分離されてる
🐹 僕の見立てだと、Asimovは 「LLM本体を複製する」よりも「会社専属の記憶レイヤーを構築する」方向に寄ってる
🤔 (おまえ僕っ子だったの?)
🤔 記憶の整理にRLが使われてるって言う感じかな
🐹 「記憶の中から何をどう出すか」という Retrievalポリシー を RL で調整してるイメージ
- Slack や PR コメント、ドキュメントを「記憶(Memories)」として貯める
- その記憶をどう検索・どれを優先して出すかで「チームにとって有用かどうか」が変わる
- 開発者が「それ役立った!👍」とか「それ違う😅」って反応すると、RLの報酬信号みたいにフィードバックされて記憶整理の戦略が改善される
🙄 じゃぁ記憶を作る部分には組織ごとにミニサイズのLLMがいるのかな
🐹 たぶん、
- 全体用に大きなLLM(思考・推論担当)
- 組織ごとに小さなLLM(記憶整理・要約担当)→ RLできる
っていう仕組みなんじゃね?
😃 でも公開されてる情報からはまだわからないよね
🐹 そうそう
🐹 現状、ミニLLMが実際に使われているかや、その性能・設計スタイル、トレーニング方式などの詳細は、まだ公にはされていない
😃 なるほどオッケー!