ViTのしくみ

07 Dec, 2025

Vision Transformer（ViT）は画像の内容を理解するモデル

昔はCNNっていうのが使われてたけど、こっちの方いろいろメリットがあって最近は主流みたい

仕組みざっくり調べてみた

学習時

例えば 224×224 の画像があったら 16×16 の小さなブロックに切る

すると 14×14 = 196個のパッチになる

一個のパッチの全てのピクセルのRGBを繋げてベクトルにする

16×16のパッチだったら 16×16×3で768次元になる

[ r,g,b, r,g,b, r,g,b, ... ] ← 768次元

これを線形変換（Wx + b）で学習可能な埋め込みに変える。

このWを学習する

この時点で768次元のベクトルが縦に196個並んでるマトリックスができる

さきほどのマトリックスに位置情報を足し算する

足し算てどういうこと？って思ったら、位置情報自体もベクトルで、196個分それぞれもとのマトリクスに足し合わせるらしい

この位置情報のベクトル算出モデルみたいなのも多分学習する

画像のRGBと位置情報混ぜちゃって大丈夫なのぃ？って思ってるけどいったんスルーするぃ

ここからはお馴染みのアテンショ〜ン

みたいな感じで仲良し同士が近くなるエモの魔法をかけます

重みを学習します はぃ

画像ぶった斬り→ベクトル化→Transformer通す

Transformerが教えてくれるのは、

っていう「全体の意味」（猫とは言わない）

それを分類ヘッドで受け取って、

みたいに出力する