フィーチャーフラグによる監視とオブザーバビリティ
フィーチャーフラグロールアウトの監視とアラートを設定。フラグ評価の追跡、バリエーション間のメトリクス比較、早期の問題検出。
Best Practices
詳細な説明
フィーチャーフラグロールアウトの監視
監視のないフィーチャーフラグは盲目飛行です。各ユーザーがどのバリエーションを受け取るかを追跡し、グループ間の主要メトリクスを比較し、問題が広がる前にキャッチするアラートを設定する必要があります。
監視設定
{
"new-recommendation-algo": {
"name": "新しいレコメンデーションアルゴリズム",
"type": "boolean",
"enabled": true,
"defaultValue": false,
"targeting": [
{ "type": "percentage-rollout", "percentage": 20 }
],
"_monitoring": {
"primaryMetrics": [
"recommendation.click_through_rate",
"recommendation.conversion_rate"
],
"guardrailMetrics": [
"page.load_time_p99",
"recommendation.error_rate",
"support.ticket_count"
]
}
}
}
監視対象
| カテゴリ | メトリクス | アラート条件 |
|---|---|---|
| 信頼性 | エラー率、例外 | コントロールより0.5%以上増加 |
| パフォーマンス | p50, p95, p99レイテンシー | 100ms以上増加 |
| ビジネス | コンバージョン、収益 | 2%以上減少 |
| インフラ | CPU、メモリ、DBクエリ | 20%以上増加 |
| ユーザー体験 | バウンス率、セッション時間 | 有意な変化 |
アラートルール
- 即時(PagerDuty):トリートメントグループでエラー率が1%以上急上昇
- 警告(Slack):レイテンシーp99が50ms以上増加
- 情報(ダッシュボード):メトリクスの乖離が5%以上
ロールアウト後の分析
100%に達した後、完全なデータを分析:
- トリートメントとコントロール期間のすべてのメトリクスを比較
- 遅延効果(表面化に数日かかった問題)を確認
- ロールアウトレトロスペクティブに結果を文書化
- フラグクリーンアップチケットとともに監視設定をアーカイブ
ユースケース
メディアプラットフォームが新しいレコメンデーションアルゴリズムをユーザーの20%にロールアウト。監視ダッシュボードでクリックスルー率が2.2%改善し、エラー率やレイテンシーの増加がないことを表示。ガードレールアラートはエラー率が急上昇した場合にオンコールエンジニアに自動的にページングするよう設定されており、ロールアウトを50%に増やす自信を与えます。