基于知识图谱的社会媒体中少数民族主题数据抽取方法

发布时间:2024-02-19 10:44
  随着互联网技术的发展,社会媒体在信息传播中扮演着重要的角色,社会媒体平台每天产生海量化的数据,蕴含着各个领域与行业多种信息。从海量社会媒体数据中抽取出特定领域的数据,是用已有的专家知识作为先验知识,利用多种数据处理模型对数据进行分类、过滤筛选的过程。可应用于社会舆论集散、新闻信息传播、企业品牌推广、商业营销拓展等,具有重要的社会价值和商业价值。本文研究社会媒体中少数民族主题的数据抽取,如何解决非结构、多主题的社会媒体数据的分类困难,如何解决少数民族主题数据的稀疏、缺失和识别困难,以及如何利用已知有限的专家知识实现更准确、高效的数据抽取,成为本文需要解决的主要问题。为此,本文引入知识图谱(Knowledge Graph,KG)和LDA模型(Latent Dirichlet Allocation),从社会媒体平台获取新闻数据与用户数据,以少数民族领域的专家知识作为先验知识,进行社会媒体数据的主题分类与内容筛选,从中抽取得到少数民族主题的数据。本文研究工作主要包含以下几个方面:1、利用已有的少数民族专家知识,从中读取实体词汇作为节点,词汇对应的属性作为节点与领域名的关系,并获取实体属性关系外...

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 知识图谱的构建与补全
        1.2.2 基于LDA模型的主题分类
        1.2.3 社会媒体数据抽取
    1.3 本文的主要研究内容
    1.4 本文的组织结构
第2章 基础知识
    2.1 知识图谱
    2.2 LDA主题模型
    2.3 知识表示学习
    2.4 本章小结
第3章 少数民族新闻知识图谱的构建与补全
    3.1 少数民族新闻知识图谱构建
    3.2 知识图谱补全
        3.2.1 知识图谱补全任务
        3.2.2 知识表示学习模型TransE的构建
        3.2.3 少数民族新闻知识图谱关系预测
    3.3 本章小结
第4章 社会媒体中少数民族新闻数据的抽取
    4.1 少数民族新闻数据抽取基本思想
    4.2 社会媒体数据的定义
    4.3 数据的主题分类
    4.4 基于知识图谱的数据抽取过程
    4.5 本章小结
第5章 实验结果与分析
    5.1 实验设置
        5.1.1 数据集
        5.1.2 实验环境与平台
        5.1.3 模型评估指标
    5.2 有效性测试
        5.2.1 知识图谱补全有效性测试
        5.2.2 主题分类有效性测试
        5.2.3 数据抽取有效性测试
    5.3 效率测试
    5.4 实验小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间的科研成果
致谢



本文编号:3902563

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3902563.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户d472f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]