著者/所属機関
Leonardo Mariani (Universita degli studi di Milano Bicocca) et al.
出典
ICST 2018
目的
クラウド上で動作するアプリケーション(役割ごとのサーバ/VMで動作する分散アプリケーション)におけるfault localization
問題
既存手法は,意図的にfaultを入れ込んだ状態でのアプリケーションの動作を学習させる必要があり,準備コスト高
解法
正常状態の学習のみで,異常状態の検出+異常の発生源を特定する手法を提案
- 正常状態でのKPI(サーバXでのCPU使用率など)を学習し,KPI間の結びつきをcausality graphとしてモデル化
- causality graphと比較し,現状のKPI(メトリクス)が異常値か判定
- 異常状態を検知した場合,異常状態にあるKPIをcausality graphから抽出 (=propagation graph)
- propagation graphに対してgraph centrality algorithms (Page Rank algorithmなど)を適用し,fault原因を特定
結果
OSSのIP Multimedia Subsystemに意図的にfaultを入れ,当該faultを特定可能か評価し,既存手法(faultを入れ込んで学習する手法)と同等の性能を,少ないオーバヘッドで達成することを確認
備考・所感
- この手のログを学習させて異常を検知する系の技術,面白いけど開発現場に持ち込むハードルが激高なイメージ
- 物理機器の故障予知/予知保全も同じはずだけど,実際どのくらい浸透してるんだろ
- ニュースリリースではよく聞くけど…
Tagged: #testing #cloud #fault localization