Gandalf: an intelligent, end-to-end analytics service for safe deployment in cloud-scale infrastructure

抜粋・メモ

問題が起きてからどのデプロイが問題だった理解するのは簡単じゃない → Gandalfがデータ分析して問題があるroll outだったら停止&開発チームに連絡
key challenge:
1. 常に変化するものに対する異常を検知しなければならない
2. デプロイと関係ない周辺(ネットワークとか)の障害がよくある＝異常検知する側としてはnoisy
3. 問題を素早く検知しなきゃいけないけど遅れて現れる(メモリリークのような)問題にも対応しないといけない
4. 異常な状態を見つけても何が原因かも見つけないといけない
- 加えてコンポーネントと障害はmany-to-manyの関係
system design:
- 高速レイヤで早期検知(5分)，バッチレイヤでより詳細な分析(3時間)
- 教師あり学習，異常検知，相関分析は一長一短だったので，これらを組み合わせた意思決定用のパイプラインを構築
適用結果
- 8ヶ月の間にデータプレーンのroll outでは155の障害をprecision 92.4%, recall 100%で検出，コントロールプレーンのroll outでは39のインシデントをprecision 94.9%, recall 99.8%で検出
- Gandalfが検知した問題の多くはHW/SKU/OSなどのバージョン互換性か契約(API)の問題
その他
- Azureでは破壊的な問題の多くはroll out後の1時間以内で起きていたhic issues happen within 1 hour after the rollout.