Fine-Tuning のコスト:訓練、ホスティング、推論単価

OpenAI の fine-tuning は GPT-4o mini で訓練 1Mトークンあたり $25、推論はベースの2倍。プロンプトエンジニアリングと比較して fine-tuning が勝つ条件は?

Operational

詳細な説明

3つのコスト要素

1. 訓練コスト

OpenAI の訓練単価(訓練データ 1M トークンあたり):

モデル 訓練 $/1M ホスティング $/日
GPT-4o mini $25 $0(追加料金なし)
GPT-4o(mini 由来) $25 $0
GPT-3.5 Turbo $8 $0

典型的な fine-tuning データセットは 1,000〜10,000 サンプル × 約500トークン = 0.5M〜5M トークン。1回の訓練ランで $12.50〜$125。ハイパーパラメータ探索で通常 3〜5 ランを実施 → 訓練総額は $50〜$625 になります。

2. 推論コストの上乗せ

Fine-tuned モデルは推論時にベースモデルの 2倍 で課金されます:

  • GPT-4o mini ベース:$0.15 入力 / $0.60 出力 per 1M
  • GPT-4o mini fine-tuned:$0.30 入力 / $1.20 出力 per 1M

月 10M トークンの推論で:

  • ベース GPT-4o mini:約 $3.75
  • Fine-tuned:約 $7.50(永続的に +$3.75/月)

3. プロンプトエンジニアリングとの損益分岐

Fine-tuning がトークンを節約するのは その後にプロンプトを大幅に短縮できる場合のみ です。典型例:

  • Before:分類用に 2,000 トークンのシステムプロンプト + 20 個の few-shot 例。
  • After:100 トークンのシステムプロンプト。タスクパターンをモデルが内部化済み。

1コールあたりトークン節約:1,900 トークン × $0.15/1M = $0.000285 1コールあたり推論上乗せ:100 トークン × ($0.30 - $0.15)/1M = $0.000015

純節約:1コール $0.000270。$62 の訓練ランを回収するには 約 230,000 コール で損益分岐します。

Fine-tuning が報われる場面

  • 大量 + 単純タスク:分類、意図検出、構造化データ抽出で月 100 万コール超。
  • フォーマット一貫性:ベースモデルがたまに出力スキーマを外し、99.9%以上の遵守率が必要なとき。
  • レイテンシ:プロンプトが短くなる fine-tuned モデルは TTFT(最初のトークンまでの時間)が短くなります。

プロンプトエンジニアリングが勝つ場面

  • 月10万コール未満:訓練コスト回収に時間がかかりすぎる。
  • 要件が頻繁に変わる:仕様変更のたびに再訓練が必要。
  • chain-of-thought の恩恵があるタスク:fine-tuning は冗長な推論を抑制し、複雑タスクの品質を下げます。

Anthropic / Gemini

Anthropic は2026年時点で Claude モデルの公開 fine-tuning を提供していません。Gemini は OpenAI と類似の価格構造で Gemini 2.5 Flash の fine-tuning を提供しています。

ユースケース

本番ワークロードに対して fine-tuning とプロンプトエンジニアリングを比較するとき、fine-tuning プロジェクトのコストを正当化するとき、fine-tuning がコスト的に妥当になるボリューム閾値を計画するときに使ってください。

試してみるプロンプト トークン費用計算ツール

フルツールを開く