当前位置:主页 > 经济论文 > 审计论文 >

面向高新企业审计数据的特征选择算法研究

发布时间:2024-02-03 21:01
  在信息技术快速发展的背景下,庞大的数据经常会给数据的存储和计算带来巨大负担。为提高审计工作的效率和质量,结合特征选择算法和大数据处理技术进行审计数据平台的开发。通过使用二阶段特征选择算法模型,在快速相关滤波特征选择算法(FCBF)的基础上进行改进,使用最大互信息系数衡量特征,引入计算弱相关及冗余性的评价准则。系统面向公司审计数据集,通过特征选择后对样本的创新水平进行分析,实现智能分析的效果。

【文章页数】:11 页

【部分图文】:

图1FCBF算法的特征分类定义

图1FCBF算法的特征分类定义

特征冗余性和相关性的不同之处在于,相关性衡量特征和类别之间线性或非线性的程度;冗余性衡量特征子集内部的关系,相比于相关性的计算,冗余性的复杂性更加高。FCBF算法将特征主要分为4类:无关特征、弱相关且冗余特征、弱相关非冗余特征和强相关特征。按照FCBF算法的定义,去除冗余特征后的....


图3通过MIC和随机森林重要度特征选择的分类准确率比较

图3通过MIC和随机森林重要度特征选择的分类准确率比较

通过将基于随机森林的特征重要度评价准则和基于最大互信息系数算法所选择的特征进行分类,分析比较其分类效果,选择效果提升更明显的方法作为第一阶段的特征选择算法。分类效果的评估方法为:使用随机森林作为分类器并结合10折交叉验证的方法计算特征分类结果的准确率。如图3所示,以公司审计数据为....


图4基于MIC和随机森林的二阶段特征选择算法流程

图4基于MIC和随机森林的二阶段特征选择算法流程

将第一阶段过滤式特征选择和第二阶段封装式特征选择算法的弱相关和冗余特征去除过程进行综合,在输入原数据集后,通过Filter特征预选择阶段得到候选特征子集,根据Wrapper方法提高分类准确率并输出最终特征子集(见图4)。3面向高新企业审计数据的分析和验证


图5高新企业审计数据集基于RF的第二阶段特征选择过程

图5高新企业审计数据集基于RF的第二阶段特征选择过程

基于MIC和近似马尔可夫毯的第二阶段特征选择算法在高新企业审计数据集和Musk数据集上特征选择的过程分别如图7和图8所示,图中横轴表示第二阶段的弱相关冗余性阈值所分别对应的特征数,竖轴表示对应的分类效果。根据预选择个数的公式,高新企业审计数据集的特征数约为46个,Musk数据的特....



本文编号:3894674

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/sjlw/3894674.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户55a3a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]