Noesworthy

DETR (DEtection TRansformer)ってなぁに

26 Sep, 2025

(GPTコピペ)

🐹 DETR (DEtection TRansformer) は、Facebook AI Research (FAIR) が2020年に発表した 物体検出モデル だよ📦🔍

🧩 DETRの特徴

Transformerベース

それまでの物体検出（YOLOとかFaster R-CNNとか）はCNN＋複雑なアンカーやヒューリスティックが必要だったのに対して、DETRは Transformer（自然言語処理で流行ったあの仕組み！）を画像に応用してるんだよ。
画像の特徴をエンコーダーで処理 → デコーダーで「物体候補」を直接予測する。

アンカー不要

伝統的な検出モデルは「この枠の中に物体があるかも？」って大量の候補ボックスを生成してから調整してた。
DETRは「固定数の物体クエリ」を学習させて、そのままバウンディングボックスとラベルを出力する。シンプルで美しい✨

集合予測（Set Prediction）

Hungarian matching というアルゴリズムで、予測したボックスと正解ボックスを1対1で対応付ける仕組みを採用。重複検出やNMS（Non-Maximum Suppression）も不要になる。

🚀 すごいところ

End-to-End: 前処理・後処理が少なくてシンプル。
表現力: Transformerのおかげで、画像中の複雑な関係性も学習できる。
拡張性: セマンティックセグメンテーションやパンオプティックセグメンテーションにも応用可能。

🤔 微妙なところ

訓練に大量のデータと計算資源が必要。
小さい物体の検出はやや苦手（のちに Deformable DETR とか改良版が出て改善された）。

💡イメージ的には「従来は“物体候補を山ほど出してから整理”してたのを、Transformerで“一発で整理された答え”を出すようになった」って感じかな。