LLM関係で気にするとよいGPUの性能

17 Oct, 2025

LLMをファインチューンしてみたよ

最初無料で使えるL4っていうGPUでやってたんだけど、モデルのロードで動かなくなっちゃって、Pro（月1100円）にしてA100でやったらサクサク動いたよぃ

ていうわけで、GPU使うときに気にするとよい性能⬇️

帯域

「GPUがメモリ（VRAM）からデータをどれくらいの速さで読み書きできるか」を表すスピードのこと。単位は「GB/s」

帯域が広いと、一度にたくさんのデータをGPUがメモリから読み込める

Tensor Core（テンソルコア）＝MatMul（行列計算）を桁違いに早くする専用ユニット

Tensor Coreが優秀だと、MatMulが早くなる（=学習が早くなる）

推論でもMatMulはするけど、学習時は特に性能高くないと詰む

世代ごとのTensor Core進化⬇️

GPU世代	コア名	対応精度	特徴
Volta (V100)	第1世代	FP16のみ	最初のTensor Core登場
Turing (T4)	第2世代	FP16, INT8	推論に強くなる
Ampere (A100)	第3世代	FP16, BF16, TF32	学習・推論どちらも最強
Ada (L4, RTX40系)	第4世代	FP8, FP16	消費電力効率が良い
Hopper (H100)	第5世代	FP8, FP16, FP64	FP8推論が爆速🚀

AIモデルを動かすとき、モデルの重み（weights）やトークンの中間状態（activations）を全部 GPUのVRAMにロードして処理する

VRAMが小さいと、部分的にCPUのRAMにデータを逃したりして、遅くなる

主要なGPUの性能比較表

GPU名	世代	VRAM容量	メモリ帯域 (GB/s)	Tensor Core性能 (FP16/BF16, 理論値 TFLOPS)	主な用途	備考
T4	Turing (2018)	16 GB GDDR6	320	約65	軽量推論	古いけど省電力、省コスト（クラウド最安）
L4	Ada Lovelace (2023)	24 GB GDDR6	300	約242	中量級推論	省エネでFP8対応、推論特化設計
A10	Ampere (2021)	24 GB GDDR6	600	約312	推論・軽学習	L4よりメモリ帯域が倍ある！
A100 40GB	Ampere (2020)	40 GB HBM2e	1,555	約312	大規模学習・推論	帯域広くて安定、人気No.1 GPU
A100 80GB	Ampere (2020)	80 GB HBM2e	2,039	約312	大規模学習	モデル全部載せられる、最強クラス
H100 80GB	Hopper (2023)	80 GB HBM3	3,350	約989（FP16）/ 約1,979（FP8）	超大型学習	FP8対応、AI研究機関向けモンスターGPU
RTX 4090	Ada Lovelace (2022)	24 GB GDDR6X	1,008	約330	ローカル開発・個人実験	消費電力高めだがコスパ◎（趣味LLM勢に人気）
MI300X (AMD)	CDNA3 (2023)	192 GB HBM3	5,200	約1300（FP16換算）	超大規模学習	NVIDIAに次ぐ化け物GPU（クラウド限定）