Noesworthy

今覚えておくと役にたつ画像系ニューラルネット

07 Dec, 2025

ニューラルネット、いっぱいありすぎてわけわかめなので

特に興味がある画像系に絞って聞いてみた

Vision Transformer（ViT / 画像×Transformer系）

今一番伸びてて、ほぼ確実に使い道が増える領域
OpenAI、Google、Meta みんな ViT を採用中
CLIP・OpenAIの画像理解系も大体コレ
マルチモーダル（画像＋テキスト）モデルの基礎技術

Diffusion Models（拡散モデル）

画像生成系のメインストリーム
Stable Diffusion / DALL-E / Midjourney → 全部これ
画像生成だけじゃなく、動画・3D生成にも応用されてきてる

CLIP（画像とテキストをつなぐモデル）

画像を“テキストの意味”で理解させる魔法
DALL-E や Diffusion の“画像方向の脳みそ”
今後のAIアプリは「説明文 → 画像検索」「画像 → 意味理解」みたいなのが当たり前になる

ちなみに、CNNはほぼTransformerに置き換えられてるけど学んでおくとTransformerもDiffusion Modelもわかりやすくなるってさ