論文メモ

Localizing Faults in Cloud Systems

February 9, 2019

著者/所属機関

Leonardo Mariani (Universita degli studi di Milano Bicocca) et al.

出典

ICST 2018

目的

クラウド上で動作するアプリケーション(役割ごとのサーバ/VMで動作する分散アプリケーション)におけるfault localization

問題

既存手法は,意図的にfaultを入れ込んだ状態でのアプリケーションの動作を学習させる必要があり,準備コスト高

解法

正常状態の学習のみで,異常状態の検出+異常の発生源を特定する手法を提案

  • 正常状態でのKPI(サーバXでのCPU使用率など)を学習し,KPI間の結びつきをcausality graphとしてモデル化
  • causality graphと比較し,現状のKPI(メトリクス)が異常値か判定
  • 異常状態を検知した場合,異常状態にあるKPIをcausality graphから抽出 (=propagation graph)
  • propagation graphに対してgraph centrality algorithms (Page Rank algorithmなど)を適用し,fault原因を特定

結果

OSSのIP Multimedia Subsystemに意図的にfaultを入れ,当該faultを特定可能か評価し,既存手法(faultを入れ込んで学習する手法)と同等の性能を,少ないオーバヘッドで達成することを確認

備考・所感

  • この手のログを学習させて異常を検知する系の技術,面白いけど開発現場に持ち込むハードルが激高なイメージ
  • 物理機器の故障予知/予知保全も同じはずだけど,実際どのくらい浸透してるんだろ
    • ニュースリリースではよく聞くけど…

Tagged: #testing #cloud #fault localization