強化学習でムキムキになるコードエージェント(Asimov)

27 Aug, 2025

RL（強化学習）のこと調べてたら出てきたよぃ

元Google研究者たちが作ったReflectionっていうスタートアップが作ってるAIエージェントで、

コード分析に特化してて、

リポジトリとか、Confluenceとか、Slackとか、議事録とか、

まるっと読み込んで組織横断的にバグの原因突き止めたりできるっていうもの

OSSの大規模リポジトリに対する解析能力だけでもClaude Codeより性能いいらしい

ReflectionのチームメンバーはAlphaGoとかGeminiとか作った人たちらしいんだけど、

AlphaGoが10年前なの？あなたたちの10年あーしの10年に比べて濃すぎじゃねぃ？

っていうのが第一印象w

強化学習を使ってるってことが強調されてるけど、どういうことだろう？って思ってGPTと話したこと（たぶんめちゃめちゃハルシネーション混ざってる）

😃 asimovは普通のコードエージェントと何が違うの？

🐹 まず、取り込めるコンテキストがリッチで、リポジトリだけじゃなくてプロジェクトそのもののドキュメントや会話などチーム全体の知識（tribal knowledge）を含めて理解しちゃうんだ

🐹 しかもAlphaGoで使われたRLの仕組みを応用して、Asimovは開発者の反応（採用・改変・拒否）から学習して改善される仕組みになってるよ

🐹 つまり、「生成」だけじゃなく「理解→応答→フィードバック→改善」がループして回るんだ

😃 Claude CodeってRLしてないの？

🐹　Claude Codeの裏側ではRL調整されたClaudeが使われてるけど、特定のユーザーの入力に合わせてRLはしないよ

🤔 ああ、Asimovは組織ごとに一個モデルを持つ感じなのかな

🐹 いんや、AsimovレベルのLLMを組織ごとにホストするのは流石にコストがかかりすぎる

🐹 こういう感じじゃね？

↓ベースLLM

↓会社専属の部分

🐹 僕の見立てだと、Asimovは「LLM本体を複製する」よりも「会社専属の記憶レイヤーを構築する」方向に寄ってる

🤔 （おまえ僕っ子だったの？）

🤔 記憶の整理にRLが使われてるって言う感じかな

🐹 「記憶の中から何をどう出すか」という Retrievalポリシーを RL で調整してるイメージ

🙄 じゃぁ記憶を作る部分には組織ごとにミニサイズのLLMがいるのかな

🐹 たぶん、

っていう仕組みなんじゃね?

😃 でも公開されてる情報からはまだわからないよね

🐹 そうそう

🐹 現状、ミニLLMが実際に使われているかや、その性能・設計スタイル、トレーニング方式などの詳細は、まだ公にはされていない

😃 なるほどオッケー！