Embedding コスト比較:text-embedding-3-small vs Cohere vs Voyage
Embedding はチャットとは別の価格体系。text-embedding-3-small が $0.02/1M で、多言語対応が必要でない限り大半のRAGパイプラインで圧勝する理由を解説。
Model comparison
詳細な説明
Embedding はまったく別の価格世界
チャットモデルは入力 + 出力トークンに課金しますが、Embedding モデルは入力のみで、補完がありません。単価も1桁違います:
| モデル | $/1M トークン | 次元数 |
|---|---|---|
| OpenAI text-embedding-3-small | $0.020 | 1536 |
| OpenAI text-embedding-3-large | $0.130 | 3072 |
| Cohere embed-v3 multilingual | $0.100 | 1024 |
| Voyage voyage-3 | $0.060 | 1024 |
| Cohere embed-v3 light | $0.020 | 384 |
| Gemini text-embedding-004 | 無料(制限あり) | 768 |
10,000,000 トークン(約750万語、中規模エンジニアリング Wiki 程度)のナレッジベースを text-embedding-3-small で1回 Embedding するコストは $0.20。四半期に1回再 Embedding しても実質無料です。
上位モデルが必要な場面
- 多言語検索:コーパスやクエリに複数言語が混在する場合、Cohere multilingual と Voyage が OpenAI を上回ります。
- コード検索:Voyage のコード特化版がセマンティックコード検索で text-embedding-3-small より高精度です。
- レイテンシ重視:1536次元の text-embedding-3-small は 3072次元の large より検索時に2倍速く、多くのベンチマークで関連度の差はわずかです。
ストレージ考慮事項
Embedding コストは API 呼び出しだけではありません。fp32 で1次元あたり4バイトです。10M トークン ÷ 1.5 トークン/チャンク = 6.7M チャンク × 1536次元 = 約40 GB を fp32 で消費します。Pinecone、Qdrant、Chroma はいずれも fp16 / int8 の量子化に対応しており、2〜4倍の削減が可能です。
再計算頻度
コーパス全体の再 Embedding が必要なのは Embedding モデルそのものが変わったとき(稀)か、ベクトル DB を移行するときだけです。新規ドキュメントの追加は同じトークン単価で増分更新されます。
ユースケース
RAG パイプラインの Embedding ステップを設計するとき、ベクトル DB プロバイダーを比較するとき、より高価な多言語プロバイダーではなく OpenAI を選ぶ理由を説明するときに使ってください。