リンク
抜粋・メモ
- バグ調査で全ログ分析は大変
- 25GB, 3万行とかのときも
- 膨大なログに対し,正常なときとの差分をチェックするのが一般的
- MD5: 差分とっても300万行→何十万行ぐらい
- Fuzzy diff (by k-means): 1時間ぐらいの計算で4万行ぐらいに絞れる
- Ours: 20分で2万行
→ neural embeddingとLSH(locality sensitive hashing)を組み合わせて実現
- もう少し具体的には,ログの各行を低次元のベクトルに変換(embedding)し,クラスタリングして行が異なるかを判定することで差分抽出を実現
- この際,LSHを使うことで類似する行(ベクトル)を同じハッシュに押し込んで分類可能に
- 実際に適用して効果があった
Tagged: #machine learning