Bench4BL: Reproducibility Study on the Performance of IR-Based Bug Localization

March 15, 2019

著者/所属機関

Jaekwon Lee (University of Luxembourg) et al.

出典

ISSTA 2018

目的

Information Retrival技術を用いるBug localization手法の再現性のある性能測定

バグレポートとソースコードをテキスト的に解析してbug localizeする手法

Methodology

6つの手法を51のプロジェクトに適用してバグ発見性能を計測

51プロジェクト = 46の新しめのプロジェクト + 5の古い(過去論文の評価で使われた)プロジェクト

全データは下記から入手できる (Reproducable!)

GitHub - exatoa/Bench4BL

Resarch Question & 結果

RQ1: 既存手法が新しめのプロジェクトにも有効か

古いプロジェクトに適用した場合よりも概ねバグ検出性能が良くなる → 既存手法が古いプロジェクトにoverfittingしているわけではない

RQ2: バグレポートと解析対象コードのバージョンをあわせることの効果はあるか

ほとんどのケースにおいてバグ検出性能が向上する！

RQ3: テストコードを解析対象にすることの影響は?

テストコードを解析対象に含めるとバグ検出性能が劣化する！ (これまではテストコードも解析対象にしたほうがいいと思われていた）

RQ4: 重複するバグレポートをマージした場合の影響は?

概ねバグ検出性能が向上する

その他

6つの手法でバグ発見性能に大きな差がない
どの手法もprecision/recallが35〜50%

所感

ソフトウェア界隈で再現性ある評価の重要度が見直されている気がするので重要な研究
過去に提案された手法自体を見るとprecision/recallが35〜50%なので正直実用レベルに無いのでは…
- “Despite recent efforts in bug localization"とか言っちゃってるし…

Tagged: #bug localization #testing

← キーキャップの種類

REPT: reverse debugging of failures in deployed software →