近日,智慧教育学院(计算机科学与技术学院)祝义教授指导其2020级硕士生高宇翔在软件工程国际期刊Information and Software Technology(SCI二区,CCF-B,影响因子3.862)上发表论文“Dealing with imbalanced data for interpretable defect prediction”。
近年来,类不平衡问题对软件缺陷预测的解释有着重要的影响。该文从基于可解释规则模型的全局解释角度,通过实证研究讨论了类不平衡问题及其常见解决方案——重采样对可解释规则模型造成的影响。首先,重采样方法显著改变了特征重要性;其次,在增加少数类样本的过程中,重采样方法使得规则模型的复杂度显著增加;最后,由于对缺陷样本的覆盖率较低,以及不能够取得令人信服的预测性能,直接使用不平衡数据构造基于规则的缺陷预测模型并不可行。
为此,该文还提出了一种新的规则归纳方法。该方法在允许规则归纳时样本重叠的基础上,改进了选取候选项的增益函数以及容许一定程度的误分类,并利用所覆盖规则的平均置信度作为缺陷概率并得出缺陷标签。实验显示该方法在47个数据集上的实验取得了更好的预测性能,对历史缺陷更好的覆盖率,以及更简单更易理解的规则。
作者简介
高宇翔:江苏师范大学智慧教育学院(计算机科学与技术学院)2020级电子信息(计算机技术)硕士研究生;
祝义:江苏师范大学智慧教育学院(计算机科学与技术学院)教授,江苏省“333”中青年科学技术带头人,CCF-华为胡杨林基金获得者,江苏省一流本科专业建设点软件工程专业负责人,江苏省软件工程实践教育中心主任,软件工程学科带头人,美国波士顿大学、弗吉尼亚大学访问学者。主要从事研究方向为软件可靠性、智能化软件、自适应学习等。近年来,主持国家自然科学基金面上项目1项,主持省部级项目6项,主持市厅级项目3项。担任《TSE》《SPE》《计算机学报》等期刊审稿专家。在《SPE》《IJSEKE》《JIT》《软件学报》《计算机研究与发展》等核心学术刊物发表论文50余篇,其中SCI/EI检索40余篇,获软件著作权15项,受理国家发明专利4项。