LLM関係で気にするとよいGPUの性能
LLMをファインチューンしてみたよ
https://colab.research.google.com/drive/1k68A22y6w1jH7X1Bo2TPhe6mVZ66WAqV?usp=sharing
最初無料で使えるL4っていうGPUでやってたんだけど、モデルのロードで動かなくなっちゃって、Pro(月1100円)にしてA100でやったらサクサク動いたよぃ
ていうわけで、GPU使うときに気にするとよい性能⬇️
帯域
「GPUがメモリ(VRAM)からデータをどれくらいの速さで読み書きできるか」を表すスピードのこと。単位は「GB/s」
帯域が広いと、一度にたくさんのデータをGPUがメモリから読み込める
計算性能(Tensor Core性能)
Tensor Core(テンソルコア)=MatMul(行列計算)を桁違いに早くする専用ユニット
Tensor Coreが優秀だと、MatMulが早くなる(=学習が早くなる)
推論でもMatMulはするけど、学習時は特に性能高くないと詰む
世代ごとのTensor Core進化⬇️
| GPU世代 | コア名 | 対応精度 | 特徴 |
|---|---|---|---|
| Volta (V100) | 第1世代 | FP16のみ | 最初のTensor Core登場 |
| Turing (T4) | 第2世代 | FP16, INT8 | 推論に強くなる |
| Ampere (A100) | 第3世代 | FP16, BF16, TF32 | 学習・推論どちらも最強 |
| Ada (L4, RTX40系) | 第4世代 | FP8, FP16 | 消費電力効率が良い |
| Hopper (H100) | 第5世代 | FP8, FP16, FP64 | FP8推論が爆速🚀 |
VRAM容量
AIモデルを動かすとき、モデルの重み(weights) やトークンの中間状態(activations)を全部 GPUのVRAMにロード して処理する
VRAMが小さいと、部分的にCPUのRAMにデータを逃したりして、遅くなる
主要なGPUの性能比較表
| GPU名 | 世代 | VRAM容量 | メモリ帯域 (GB/s) | Tensor Core性能 (FP16/BF16, 理論値 TFLOPS) | 主な用途 | 備考 |
|---|---|---|---|---|---|---|
| T4 | Turing (2018) | 16 GB GDDR6 | 320 | 約65 | 軽量推論 | 古いけど省電力、省コスト(クラウド最安) |
| L4 | Ada Lovelace (2023) | 24 GB GDDR6 | 300 | 約242 | 中量級推論 | 省エネでFP8対応、推論特化設計 |
| A10 | Ampere (2021) | 24 GB GDDR6 | 600 | 約312 | 推論・軽学習 | L4よりメモリ帯域が倍ある! |
| A100 40GB | Ampere (2020) | 40 GB HBM2e | 1,555 | 約312 | 大規模学習・推論 | 帯域広くて安定、人気No.1 GPU |
| A100 80GB | Ampere (2020) | 80 GB HBM2e | 2,039 | 約312 | 大規模学習 | モデル全部載せられる、最強クラス |
| H100 80GB | Hopper (2023) | 80 GB HBM3 | 3,350 | 約989(FP16)/ 約1,979(FP8) | 超大型学習 | FP8対応、AI研究機関向けモンスターGPU |
| RTX 4090 | Ada Lovelace (2022) | 24 GB GDDR6X | 1,008 | 約330 | ローカル開発・個人実験 | 消費電力高めだがコスパ◎(趣味LLM勢に人気) |
| MI300X (AMD) | CDNA3 (2023) | 192 GB HBM3 | 5,200 | 約1300(FP16換算) | 超大規模学習 | NVIDIAに次ぐ化け物GPU(クラウド限定) |