基于统计语言模型的中文网页信息检索研究

发布时间：2024-01-31 19:48

　　互联网飞速发展,信息呈指数增长,信息获取途径更为多样化,但是信息搜索却变得更为复杂了。人们迫切需要高层次的信息处理技术来处理海量信息,快速检索到所需信息,从而帮助更好的进行决策和研究。然而,信息处理技术的普及与广泛应用很大程度上得益于自然语言处理技术的发展,为了有效解决信息检索问题,对信息检索在文档内容表示、检索模型、匹配策略以及排序算法等方面的研究逐渐增多。其中,对检索模型的研究仍然是信息检索研究的一个热点,各种检索模型和方法相继出现,如：布尔模型、向量空间模型、概率模型。尤其是近年来提出统计语言模型,将自然语言与统计学相结合来研究信息检索,借助强大的数学基底,成为信息检索中占据统治地位的检索模型,并取得了大量研究成果。对中文网页海量数据进行研究,并将中文分词组件与lemur结合构建适宜于中文的信息检索系统方面的研究相对缺乏。本文在大规模中文网页语料库CWT200G的基础上,参考TREC和SWEM信息检索标准流程,以Lemur为基准工作平台,将其与中科院分词组件—汉语词法分析系统ICTCLAS相结合,形成一个可供实验的简单的信息检索系统。首先,阐述了本文的理论基础,介绍了基于统计语...

【文章页数】：59 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
目录
1 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
        1.2.1 信息检索
        1.2.2 统计语言模型
    1.3 研究内容和组织结构
        1.3.1 本文研究内容
        1.3.2 本文组织结构
2 基于统计语言模型信息检索原理
    2.1 信息检索术语及检索流程
        2.1.1 相关术语与概念
        2.1.2 信息检索流程
    2.2 基于统计语言模型的信息检索基本原理
    2.3 统计语言模型应用于信息检索的优势
    2.4 本章小结
3 数据平滑技术
    3.1 数据稀疏问题
    3.2 几种常见数据平滑技术
    3.3 数据平滑技术对信息检索效果的影响
    3.4 本章小结
4 中文分词和中文文本索引
    4.1 中文分词
        4.1.1 基于词典的分词
        4.1.2 基于统计的分词
    4.2 中文文本索引
    4.3 中文分词和中文文本索引在信息检索中影响
        4.3.1 中文分词对信息检索的影响
        4.3.2 中文文本索引对信息检索的影响
    4.4 本章小结
5 基于统计语言模型的中文网页信息检索评测
    5.1 实验环境和数据来源
        5.1.1 Lemur工具箱
        5.1.2 CWT200G语料库
    5.2 信息检索系统ChWebIR
        5.2.1 系统实现
        5.2.2 系统运行环境
    5.3 实验方法
        5.3.1 数据处理
        5.3.2 评测指标
    5.4 实验结果分析
        5.4.1 统计语言与传统检索模型对中文检索性能的比较分析
        5.4.2 平滑技术对统计语言模型中文检索性能的比较分析
    5.5 本章小结
6 总结和展望
    6.1 总结
    6.2 展望
参考文献
致谢

本文编号：3891447

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/3891447.html

上一篇：古籍展览及其陈列研究
下一篇：基于机器学习的图书采选自动化辅助——以西雅图公共图书馆开放数据为例

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|