Multi-turn RLのコツ

19 Dec, 2025

Fireworks AIとDeeplearning.ai のメルマガ購読してるけど商売っ気なくて友達への近況報告みたいなノリでぬるっといい情報くれるからついつい読んじゃう

Fireworks AIのブログポスト

エージェントが一つのタスクに対して複数ステップ(ツール呼び出しとか)でゴールを目指すのをマルチターンっていうらしい

普通にコードで条件分岐することもできるけどモデル自体をトレーニングして振る舞いを植え付けることもできる

従来は教師あり学習で「この質問がきたらこのツール呼び出して」みたいに学習させたりマルチターンの場合複数のステップに分解して各ステップにそれを行う事が多かった

でも最近は強化学習で各ステップやタスクまるごとに対してGoodかBadかをフィードバックしてムキムキにする方法(RL、強化学習)も出てきましたよと

教師あり学習はゴールデンパターンしか教えないから教えられてないパターンが来たらエージェントが爆発しちゃう

RLならもっときめ細かくいろんなパターンに適応できるっていうことみたい

コードエージェントのAsimovがやってるやつやんね

やっぱりこの辺の話おもろぃ