Noesworthy

LLM関係で気にするとよいGPUの性能

LLMをファインチューンしてみたよ

https://colab.research.google.com/drive/1k68A22y6w1jH7X1Bo2TPhe6mVZ66WAqV?usp=sharing

最初無料で使えるL4っていうGPUでやってたんだけど、モデルのロードで動かなくなっちゃって、Pro(月1100円)にしてA100でやったらサクサク動いたよぃ

ていうわけで、GPU使うときに気にするとよい性能⬇️

帯域

「GPUがメモリ(VRAM)からデータをどれくらいの速さで読み書きできるか」を表すスピードのこと。単位は「GB/s」

帯域が広いと、一度にたくさんのデータをGPUがメモリから読み込める

計算性能(Tensor Core性能)

Tensor Core(テンソルコア)=MatMul(行列計算)を桁違いに早くする専用ユニット

Tensor Coreが優秀だと、MatMulが早くなる(=学習が早くなる)

推論でもMatMulはするけど、学習時は特に性能高くないと詰む

世代ごとのTensor Core進化⬇️

GPU世代 コア名 対応精度 特徴
Volta (V100) 第1世代 FP16のみ 最初のTensor Core登場
Turing (T4) 第2世代 FP16, INT8 推論に強くなる
Ampere (A100) 第3世代 FP16, BF16, TF32 学習・推論どちらも最強
Ada (L4, RTX40系) 第4世代 FP8, FP16 消費電力効率が良い
Hopper (H100) 第5世代 FP8, FP16, FP64 FP8推論が爆速🚀

VRAM容量

AIモデルを動かすとき、モデルの重み(weights) やトークンの中間状態(activations)を全部 GPUのVRAMにロード して処理する

VRAMが小さいと、部分的にCPUのRAMにデータを逃したりして、遅くなる

主要なGPUの性能比較表

GPU名 世代 VRAM容量 メモリ帯域 (GB/s) Tensor Core性能 (FP16/BF16, 理論値 TFLOPS) 主な用途 備考
T4 Turing (2018) 16 GB GDDR6 320 約65 軽量推論 古いけど省電力、省コスト(クラウド最安)
L4 Ada Lovelace (2023) 24 GB GDDR6 300 約242 中量級推論 省エネでFP8対応、推論特化設計
A10 Ampere (2021) 24 GB GDDR6 600 約312 推論・軽学習 L4よりメモリ帯域が倍ある!
A100 40GB Ampere (2020) 40 GB HBM2e 1,555 約312 大規模学習・推論 帯域広くて安定、人気No.1 GPU
A100 80GB Ampere (2020) 80 GB HBM2e 2,039 約312 大規模学習 モデル全部載せられる、最強クラス
H100 80GB Hopper (2023) 80 GB HBM3 3,350 約989(FP16)/ 約1,979(FP8) 超大型学習 FP8対応、AI研究機関向けモンスターGPU
RTX 4090 Ada Lovelace (2022) 24 GB GDDR6X 1,008 約330 ローカル開発・個人実験 消費電力高めだがコスパ◎(趣味LLM勢に人気)
MI300X (AMD) CDNA3 (2023) 192 GB HBM3 5,200 約1300(FP16換算) 超大規模学習 NVIDIAに次ぐ化け物GPU(クラウド限定)

#tech