マルコフ連鎖ってなぁに
😃 マルコフ連鎖ってなに?
🐹 あることが過去の履歴に関係なく、今の状態だけに依存して確率的に変わっていくプロセスのことだよ
🐹 明日の天気→今日の天気に依存するけど、それより前の天気は必要ない
🐹 信号機→赤の次は青、青の次は黄色、黄色の次は赤(全部確率100%で遷移するマルコフ連鎖)
😃 なぁんだまた名前でめちゃくちゃ難しそうなの想像してたわぃ
😃 AI関係でよく見かけるんだけど、どういう時に使われるの?
🐹 まず、昔はテキスト生成に使われてたね
🐹 でも一手先しか読まないから、文脈を理解するトランスフォーマーに取って代わられた
🐹 私は猫が好き、猫がごはんを食べる、ごはんはおいしい、を元データとすると、
🐹 私は猫がごはんおいしい
🐹 みたいな文になっちゃうんだよね、一手先しか見ないから
🐹 でも最近は強化学習に使われるね
🐹 強化学習では環境を MDP(Markov Decision Process) としてモデル化するんだ
🐹 強化学習では「未来は今の状態と行動だけに依存する」=マルコフ性を仮定してる
🐹 ロボット掃除機を考えてみると…
🐹 状態 = 「今の場所」「ゴミがある/ない」
🐹 行動 = 「前進」「左回転」「右回転」
🐹 報酬 = 「ゴミを吸ったら +1」
🐹 みたいな感じ
😃 1年前の自分とは比べないんだ
🐹 そうそう
🐹 Q学習、SARSA、DQNっていう代表的な強化学習アルゴリズムもMDPを基礎にしてる
😃 なんか聞いたことあるぞ
😃 ちなみにAlphaGoもマルコフ連鎖みたいな局所最適化だけであんなに強くなったの?
🐹 それはNO!
🐹 碁は 状態空間が膨大すぎる(10^170 通りとか言われる 🤯)
🐹 普通のMDPベース(テーブル型Q学習とか)だと、状態を全部覚えるなんて不可能
🐹 だから「ただのMDP理論」だけでは全然手が足りなかったんだ
🐹 で、AlphaGoはこんな技術を組み合わせた
- 深層ニューラルネットワーク
- ポリシーネット: どの手が良さそうか確率分布で出す。
- バリューネット: 盤面を評価して勝率を予測する。
👉 状態を「特徴量に圧縮」して扱えるようにした。
- モンテカルロ木探索 (MCTS)
- ランダムにプレイアウトして勝率をシミュレーション。
- ポリシーネット・バリューネットの予測をガイドにして探索を効率化。
- 強化学習 (MDPベース)
- 自己対局してデータを増やし、方策改善(Policy Improvement)を繰り返した。
😃 ほうほう
😃 なんかよくわかんないけどまた別途相談させてください
🐹 はい、いつでも大丈夫です
🐹 空いてる時間にミーティング入れてください
😃 かしこまりました