記事メモ

Capturing and enhancing in situ system observability for failure detection

January 19, 2019

リンク

Capturing and enhancing in situ system observability for failure detection | the morning paper

抜粋・メモ

  • 従来の分散システムの監視:クライアントはログとってリトライなりの対処する+それとは別に障害を検出して理解するための基盤がある
  • 提案手法(Panorama)ではクライアントが利用先の状態を監視・報告

Panorama pushes the detection scope to an extreme by allowing any thread in any process to report evidence, regardless of its role, layer, or subsystem. The resulting diverse sources of evidence enhance the observability of complex failures.

  • Observability Pattern

a) synchronous request response b) indirect request, direct reply c) direct request, indirect reply d) indirect request and reply

  • コード解析し,上記パターンに基づき報告用のhookを埋め込む

  • 4システムに適用し,15のバグを発見した!

Tagged: #observability #monitoring