今覚えておくと役にたつ画像系ニューラルネット
ニューラルネット、いっぱいありすぎてわけわかめなので
特に興味がある画像系に絞って聞いてみた
Vision Transformer(ViT / 画像×Transformer系)
- 今一番伸びてて、ほぼ確実に使い道が増える領域
- OpenAI、Google、Meta みんな ViT を採用中
- CLIP・OpenAIの画像理解系も大体コレ
- マルチモーダル(画像+テキスト)モデルの基礎技術
Diffusion Models(拡散モデル)
- 画像生成系のメインストリーム
- Stable Diffusion / DALL-E / Midjourney → 全部これ
- 画像生成だけじゃなく、動画・3D生成にも応用されてきてる
CLIP(画像とテキストをつなぐモデル)
- 画像を“テキストの意味”で理解させる魔法
- DALL-E や Diffusion の“画像方向の脳みそ”
- 今後のAIアプリは「説明文 → 画像検索」「画像 → 意味理解」みたいなのが当たり前になる
ちなみに、CNNはほぼTransformerに置き換えられてるけど学んでおくとTransformerもDiffusion Modelもわかりやすくなるってさ