Localizing Faults in Cloud Systems - jagijagijag1 tiny tech notes

Leonardo Mariani (Universita degli studi di Milano Bicocca) et al.

ICST 2018

目的

クラウド上で動作するアプリケーション(役割ごとのサーバ/VMで動作する分散アプリケーション)におけるfault localization

既存手法は，意図的にfaultを入れ込んだ状態でのアプリケーションの動作を学習させる必要があり，準備コスト高

正常状態の学習のみで，異常状態の検出＋異常の発生源を特定する手法を提案

正常状態でのKPI(サーバXでのCPU使用率など)を学習し，KPI間の結びつきをcausality graphとしてモデル化
causality graphと比較し，現状のKPI(メトリクス)が異常値か判定
異常状態を検知した場合，異常状態にあるKPIをcausality graphから抽出 (=propagation graph)
propagation graphに対してgraph centrality algorithms (Page Rank algorithmなど)を適用し，fault原因を特定

OSSのIP Multimedia Subsystemに意図的にfaultを入れ，当該faultを特定可能か評価し，既存手法(faultを入れ込んで学習する手法)と同等の性能を，少ないオーバヘッドで達成することを確認