年报文本与数据分析及可视化的设计与实现

发布时间：2023-06-23 19:21

　　企业年报由大量文本和经济数据构成,这些文本和经济数据一直是我们数据分析和文本挖掘中的热点,如何快速准确的提取这些信息,以及对提取的数据进行预测,对文本进行分析是本文研究的重点。在数据研究方面本文首先利用LSTM模型,对用户关心的股票价格及其变化趋势进行预测,实验中利用相应的特征比如开盘价,收盘价等和标签实现了预测任务。通过结果可以观察到,模型可以预测出未来一段时间的股价走势,以及预测的股价也和真实值较为贴近。其次,为了更好的捕捉行业未来的动向,我们进行了股价收益排名预测,因为比起股价,更多用户更加关心每只股票的收益情况,但是传统的回归任务并不能很好的考虑排名中的位置信息,在每次迭代中,不能更好的利用位置信息进行位置排序更新。为了解决这一问题,我们引入了排序学习的方法。结合排序学习的方法,我们提出基于排序学习的股价收益预测模型,实现对股价收益排名的合理预测,实验结果表明在股价排名预测任务中有显著的提升效果,并最终在可视化环节,对预测的排名进行展示。在文本处理方面,首先着手于文本分类实验,将报表中的财务指标描述类文本从PDF中进行提取,在进行完分词,去停用词等预处理后,利用朴素贝叶斯分类器...

【文章页数】：54 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 企业报表文本与数据挖掘的研究现状
    1.2 面向排序学习的经济数据预测模型
        1.2.1 数据提取
        1.2.2 数据处理
        1.2.3 数据模型
    1.3 年报文本与数据分析的研究意义
    1.4 论文的整体架构
2 报表数据预测
    2.1 xgBoost方法
    2.2 前馈神经网络
    2.3 LSTM方法
    2.4 排序学习方法
        2.4.1 Random Forests
        2.4.2 Rank Net
        2.4.3 MART
        2.4.4 Lambda MART
    2.5 本章小结
3 报表文本处理
    3.1 朴素贝叶斯文本分类
    3.2 序列标注与实体识别
    3.3 基于依存分析的中文实体关系抽取
    3.4 本章小结
4 数据分析与文本处理实验
    4.1 股价收益排名预测
        4.1.1 特征分析
        4.1.2 数据标注
        4.1.3 数据格式
        4.1.4 实验结果及分析
    4.2 股价及趋势预测
        4.2.1 数据处理
        4.2.2 模型构建及训练
        4.2.3 预测结果及分析
    4.3 公司盈利亏损文本分类
        4.3.1 数据准备
        4.3.2 文本预处理
        4.3.3 权重策略
        4.3.4 实验及结果
    4.4 年报文本实体识别
        4.4.1 数据准备
        4.4.2 实体识别实验
        4.4.3 实验结果及分析
    4.5 年报文本关系抽取
        4.5.1 数据准备
        4.5.2 实体关系抽取
        4.5.3 实体关系抽取结果及分析
    4.6 本章小结
5 可视化设计与实现
    5.1 可视化技术实现
        5.1.1 前端和数据库
        5.1.2 SMM框架
        5.1.3 可视化代码结构
    5.2 可视化模块
        5.2.1 基础数据展示
        5.2.2 排名预测展示
        5.2.3 利润分类展示
        5.2.4 股价及趋势预测展示
        5.2.5 关系图谱展示
    5.3 本章小结
结论
参考文献
致谢
攻读硕士学位期间发表学术论文情况

本文编号：3835169

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3835169.html

上一篇：病理图像中细胞核自动分割算法研究
下一篇：基于序列到序列模型的答案生成方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|