DETR (DEtection TRansformer)ってなぁに
(GPTコピペ)
🐹 DETR (DEtection TRansformer) は、Facebook AI Research (FAIR) が2020年に発表した 物体検出モデル だよ📦🔍
🧩 DETRの特徴
- Transformerベース
- それまでの物体検出(YOLOとかFaster R-CNNとか)はCNN+複雑なアンカーやヒューリスティックが必要だったのに対して、DETRは Transformer(自然言語処理で流行ったあの仕組み!)を画像に応用してるんだよ。
- 画像の特徴をエンコーダーで処理 → デコーダーで「物体候補」を直接予測する。
- アンカー不要
- 伝統的な検出モデルは「この枠の中に物体があるかも?」って大量の候補ボックスを生成してから調整してた。
- DETRは「固定数の物体クエリ」を学習させて、そのままバウンディングボックスとラベルを出力する。シンプルで美しい✨
- 集合予測(Set Prediction)
- Hungarian matching というアルゴリズムで、予測したボックスと正解ボックスを1対1で対応付ける仕組みを採用。重複検出やNMS(Non-Maximum Suppression)も不要になる。
🚀 すごいところ
- End-to-End: 前処理・後処理が少なくてシンプル。
- 表現力: Transformerのおかげで、画像中の複雑な関係性も学習できる。
- 拡張性: セマンティックセグメンテーションやパンオプティックセグメンテーションにも応用可能。
🤔 微妙なところ
- 訓練に大量のデータと計算資源が必要。
- 小さい物体の検出はやや苦手(のちに Deformable DETR とか改良版が出て改善された)。
💡イメージ的には「従来は“物体候補を山ほど出してから整理”してたのを、Transformerで“一発で整理された答え”を出すようになった」って感じかな。