月次予算の見積もり:5分で30日フォーキャストを作成
バッチ件数欄を使って「1コール単価 × 1日件数 × 30」を計算。1機能もリリースする前に LLM ライン項目を見積もるためのフレームワーク。
Operational
詳細な説明
5分フォーキャスト
リリース前に月次コストを見積もる手順:
- 本番で90%使うと確信できるモデル を選ぶ。
- 1コールの入力 + 出力トークン数 を実際のプロンプト例で見積もる。
- 1日のコール数 を見積もる:DAU × ユーザー1人あたりのクエリ数/日。B2B SaaS なら100〜500クエリ/日が一般的、コンシューマー向けチャットボットは5〜20が典型。
- 月間総数を 30倍 で算出。
- スパイク・リトライ・見積もり過小に備えて 25%のセーフティマージン を加える。
例:社内カスタマーサポートボット
- モデル:GPT-4o
- 1コール:入力 8,000 トークン(システムプロンプト + RAG コンテキスト + 質問)、出力 800 トークン
- 1日件数:従業員 200 人 × 15 クエリ/日 = 3,000 コール/日
- 月次:90,000 コール
1コール単価:8K × $2.50/1M + 800 × $10/1M = $0.028 月次コスト:90,000 × $0.028 = $2,520 25%マージン込み:$3,150
例:一般公開向けチャットボット
- モデル:コスト重視で GPT-4o mini(難クエリは Claude Sonnet)
- 1コール:入力 3,000、出力 500
- 1日件数:50,000 DAU × 8 クエリ = 400,000 コール/日
- 月次:12,000,000 コール
1コール単価(GPT-4o mini):3K × $0.15/1M + 500 × $0.60/1M = $0.000750 月次:12M × $0.00075 = $9,000/月
例:100エンジニア向けコードエージェント
- モデル:キャッシュ付き Claude Opus 4.7
- 1PR あたり:入力 50K トークン × 10 ターン = 500K 入力、10K 出力
- キャッシュなし:500K × $15/1M + 10K × $75/1M = $8.25/PR
- キャッシュあり(80% ヒット率):500K × (0.2 × $15 + 0.8 × $1.50)/1M + 10K × $75/1M = $2.85/PR
- ボリューム:100 エンジニア × 5 PR/日 × 22 営業日 = 11,000 PR/月
- 月次(キャッシュあり):11,000 × $2.85 = $31,350
よくある見積もりミス
- リトライ忘れ:API 呼び出しの 5〜10% が失敗してリトライされる。コール数に7%を加える。
- システムプロンプト成長を無視:プロンプトは製品の最初の1年で2〜3倍に成長する。
- 出力過小評価:ユーザーは「再生成」「もっと教えて」を押す。計画した出力長の1.3倍を想定する。
- マージンを省略:ローンチは皆を驚かせる。常に +25%。
フォーキャストが外れたとき
月次予算の70%で14日目に Datadog/Grafana アラートを設定してください。14日目で70%を超えていれば50%超過ペースです。即座に調査してください。最も多い犯人は、暴走ループか誤設定のリトライポリシーです。
ユースケース
経理から LLM ライン項目を求められるたびに使ってください。ユニットエコノミクスに基づく機能の Go/No-Go 判断、LLM プロバイダーとの契約サイジングにも有用です。