Fine-Tuning のコスト:訓練、ホスティング、推論単価
OpenAI の fine-tuning は GPT-4o mini で訓練 1Mトークンあたり $25、推論はベースの2倍。プロンプトエンジニアリングと比較して fine-tuning が勝つ条件は?
詳細な説明
3つのコスト要素
1. 訓練コスト
OpenAI の訓練単価(訓練データ 1M トークンあたり):
| モデル | 訓練 $/1M | ホスティング $/日 |
|---|---|---|
| GPT-4o mini | $25 | $0(追加料金なし) |
| GPT-4o(mini 由来) | $25 | $0 |
| GPT-3.5 Turbo | $8 | $0 |
典型的な fine-tuning データセットは 1,000〜10,000 サンプル × 約500トークン = 0.5M〜5M トークン。1回の訓練ランで $12.50〜$125。ハイパーパラメータ探索で通常 3〜5 ランを実施 → 訓練総額は $50〜$625 になります。
2. 推論コストの上乗せ
Fine-tuned モデルは推論時にベースモデルの 2倍 で課金されます:
- GPT-4o mini ベース:$0.15 入力 / $0.60 出力 per 1M
- GPT-4o mini fine-tuned:$0.30 入力 / $1.20 出力 per 1M
月 10M トークンの推論で:
- ベース GPT-4o mini:約 $3.75
- Fine-tuned:約 $7.50(永続的に +$3.75/月)
3. プロンプトエンジニアリングとの損益分岐
Fine-tuning がトークンを節約するのは その後にプロンプトを大幅に短縮できる場合のみ です。典型例:
- Before:分類用に 2,000 トークンのシステムプロンプト + 20 個の few-shot 例。
- After:100 トークンのシステムプロンプト。タスクパターンをモデルが内部化済み。
1コールあたりトークン節約:1,900 トークン × $0.15/1M = $0.000285 1コールあたり推論上乗せ:100 トークン × ($0.30 - $0.15)/1M = $0.000015
純節約:1コール $0.000270。$62 の訓練ランを回収するには 約 230,000 コール で損益分岐します。
Fine-tuning が報われる場面
- 大量 + 単純タスク:分類、意図検出、構造化データ抽出で月 100 万コール超。
- フォーマット一貫性:ベースモデルがたまに出力スキーマを外し、99.9%以上の遵守率が必要なとき。
- レイテンシ:プロンプトが短くなる fine-tuned モデルは TTFT(最初のトークンまでの時間)が短くなります。
プロンプトエンジニアリングが勝つ場面
- 月10万コール未満:訓練コスト回収に時間がかかりすぎる。
- 要件が頻繁に変わる:仕様変更のたびに再訓練が必要。
- chain-of-thought の恩恵があるタスク:fine-tuning は冗長な推論を抑制し、複雑タスクの品質を下げます。
Anthropic / Gemini
Anthropic は2026年時点で Claude モデルの公開 fine-tuning を提供していません。Gemini は OpenAI と類似の価格構造で Gemini 2.5 Flash の fine-tuning を提供しています。
ユースケース
本番ワークロードに対して fine-tuning とプロンプトエンジニアリングを比較するとき、fine-tuning プロジェクトのコストを正当化するとき、fine-tuning がコスト的に妥当になるボリューム閾値を計画するときに使ってください。