统计学习算法在民宿评论情感分析中的应用
发布时间:2024-03-20 21:38
随着互联网的更新迭代,无形中带动了民宿业往更加多元化的方向迅速发展,因此也产生了许多专门经营民宿的网络平台,与此同时,许多单一经营酒店业务的网络平台也发现了这一商机,纷纷开发了民宿业务。在这些民宿平台中积累了许多住客在线评论的文本数据,住客会针对各个方面给出自己的租住反馈,这些文本评论数据中蕴藏了许多潜在的商业价值,对其做情感分类及LDA主题挖掘对民宿平台、房东和住客都具有着重要的参考意义。本文评论文本的情感分析以爱彼迎平台青岛地区的住客为研究对象,通过人工标注并分割评论内容以获取更清晰的情感偏好,进而更好的挖掘出民宿住客评论文本中的反馈信息,为分类算法的算法对比和LDA主题模型的主题提取提供了更优质的原始文本数据支持。本文综述了目前关于民宿的研究与文本情感研究的相关文献和书籍,将民宿评论情感分析分三部分进行研究:机器学习分类法、深度学习分类法、LDA文本主题聚类,并且对这三部分的文本预处理技术、工具方法、相关理论基础进行整理和总结。然后爬取了爱彼迎民宿平台的住客评论文本数据,基于前两部分的方法分别对评论文本做情感分类,并对比这两部分分类算法的分类效果,在第三部分,对文本评论挖掘出积极...
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 引言
1.1 研究背景及意义
1.2 国内外研究综述
1.3 研究思路及内容
2 文本数据处理及原理
2.1 数据爬取
2.2 数据预处理
2.2.1 文本清洗
2.2.2 文本分词
2.3 关键词提取
2.3.1 词频统计
2.3.2 TF-IDF
2.3.3 TextRank
2.3.4 Word2vec词向量模型
2.4 分类器分类效果指标
2.4.1 混淆矩阵
2.4.2 精确率
2.4.3 召回率
2.4.4 F1值
3 基于机器学习方法的文本分类
3.1 机器学习分类方法
3.1.1 朴素贝叶斯分类器
3.1.2 支持向量机分类器
3.1.3 K-近邻分类器
3.1.4 随机森林分类器
3.2 分类及结果分析
3.2.1 分类流程
3.2.2 分类结果
4 基于XGBoost与深度学习方法的文本分类
4.1 深度学习分类方法
4.1.1 卷积神经网络
4.1.2 XGBoost算法
4.2 分类及结果分析
4.2.1 分类流程
4.2.2 分类结果
5 LDA主题模型
5.1 LDA主题文本聚类
5.1.1 LDA模型
5.1.2 词袋模型
5.1.3 困惑度与一致性
5.2 主题提取及可视化
5.2.1 提取过程
5.2.2 提取主题可视化
5.2.3 提取结果
6 结论与展望
6.1 结论
6.2 展望
参考文献
后记
本文编号:3933342
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 引言
1.1 研究背景及意义
1.2 国内外研究综述
1.3 研究思路及内容
2 文本数据处理及原理
2.1 数据爬取
2.2 数据预处理
2.2.1 文本清洗
2.2.2 文本分词
2.3 关键词提取
2.3.1 词频统计
2.3.2 TF-IDF
2.3.3 TextRank
2.3.4 Word2vec词向量模型
2.4 分类器分类效果指标
2.4.1 混淆矩阵
2.4.2 精确率
2.4.3 召回率
2.4.4 F1值
3 基于机器学习方法的文本分类
3.1 机器学习分类方法
3.1.1 朴素贝叶斯分类器
3.1.2 支持向量机分类器
3.1.3 K-近邻分类器
3.1.4 随机森林分类器
3.2 分类及结果分析
3.2.1 分类流程
3.2.2 分类结果
4 基于XGBoost与深度学习方法的文本分类
4.1 深度学习分类方法
4.1.1 卷积神经网络
4.1.2 XGBoost算法
4.2 分类及结果分析
4.2.1 分类流程
4.2.2 分类结果
5 LDA主题模型
5.1 LDA主题文本聚类
5.1.1 LDA模型
5.1.2 词袋模型
5.1.3 困惑度与一致性
5.2 主题提取及可视化
5.2.1 提取过程
5.2.2 提取主题可视化
5.2.3 提取结果
6 结论与展望
6.1 结论
6.2 展望
参考文献
后记
本文编号:3933342
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/3933342.html