フィーチャーフラグによる監視とオブザーバビリティ

フィーチャーフラグロールアウトの監視とアラートを設定。フラグ評価の追跡、バリエーション間のメトリクス比較、早期の問題検出。

Best Practices

詳細な説明

フィーチャーフラグロールアウトの監視

監視のないフィーチャーフラグは盲目飛行です。各ユーザーがどのバリエーションを受け取るかを追跡し、グループ間の主要メトリクスを比較し、問題が広がる前にキャッチするアラートを設定する必要があります。

監視設定

{
  "new-recommendation-algo": {
    "name": "新しいレコメンデーションアルゴリズム",
    "type": "boolean",
    "enabled": true,
    "defaultValue": false,
    "targeting": [
      { "type": "percentage-rollout", "percentage": 20 }
    ],
    "_monitoring": {
      "primaryMetrics": [
        "recommendation.click_through_rate",
        "recommendation.conversion_rate"
      ],
      "guardrailMetrics": [
        "page.load_time_p99",
        "recommendation.error_rate",
        "support.ticket_count"
      ]
    }
  }
}

監視対象

カテゴリ メトリクス アラート条件
信頼性 エラー率、例外 コントロールより0.5%以上増加
パフォーマンス p50, p95, p99レイテンシー 100ms以上増加
ビジネス コンバージョン、収益 2%以上減少
インフラ CPU、メモリ、DBクエリ 20%以上増加
ユーザー体験 バウンス率、セッション時間 有意な変化

アラートルール

  • 即時(PagerDuty):トリートメントグループでエラー率が1%以上急上昇
  • 警告(Slack):レイテンシーp99が50ms以上増加
  • 情報(ダッシュボード):メトリクスの乖離が5%以上

ロールアウト後の分析

100%に達した後、完全なデータを分析:

  1. トリートメントとコントロール期間のすべてのメトリクスを比較
  2. 遅延効果(表面化に数日かかった問題)を確認
  3. ロールアウトレトロスペクティブに結果を文書化
  4. フラグクリーンアップチケットとともに監視設定をアーカイブ

ユースケース

メディアプラットフォームが新しいレコメンデーションアルゴリズムをユーザーの20%にロールアウト。監視ダッシュボードでクリックスルー率が2.2%改善し、エラー率やレイテンシーの増加がないことを表示。ガードレールアラートはエラー率が急上昇した場合にオンコールエンジニアに自動的にページングするよう設定されており、ロールアウトを50%に増やす自信を与えます。

試してみる — Feature Flag Config Generator

フルツールを開く