Noesworthy

今覚えておくと役にたつ画像系ニューラルネット

ニューラルネット、いっぱいありすぎてわけわかめなので

特に興味がある画像系に絞って聞いてみた

Vision Transformer(ViT / 画像×Transformer系)

Diffusion Models(拡散モデル)

CLIP(画像とテキストをつなぐモデル)

ちなみに、CNNはほぼTransformerに置き換えられてるけど学んでおくとTransformerもDiffusion Modelもわかりやすくなるってさ

#ai #tech