基于Spark的江西省新一代信息技术专利数据分析研究

发布时间:2023-10-14 07:40
  新一代信息技术产业于2009年正式确立,数十年来一直是国家扶持的重点对象。近年,江西省新一代信息技术产业增长势头明显,但与沿海经济发达省份相比还存在不少差距。本文利用大数据技术和权威的专利数据,对江西省新一代信息技术产业发展状况进行深度分析和预测,为产业发展提供更有效的对策。本文主要研究内容如下:1、收集实验所需数据,并搭建Spark开发环境。本文根据国家统计局给出的对于新一代信息技术产业的分类,以及国家知识产权局给出的产业划分目录,制定专利数据检索式。利用Python实现网络数据爬取,经过清洗后生成原始数据集。本文建立了Spark集群及开发环境,利用大数据框架进行数据统计与分析,并利用Echarts图表库实现数据可视化。2、提出了改进的K-Means算法对专利数据进行聚类分析。聚类分析之前,为了提高实验结果的准确度,对实验数据进行离散点检测去除操作。为避免出现局部最优解的问题,改进了选取聚类中心点的方式,实验以江西省数据为例,选取专利申请人、专利年度数据等指标,进行多维度聚类分析。3、提出了基于Logistic模型以及生命周期理论的技术发展预测方法。以专利数据量为样本数据,用梯度下降...

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 引言
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 研究内容与组织结构
第2章 相关技术概述
    2.1 爬虫
    2.2 文本分词
    2.3 Spark框架
    2.4 Spark MLlib
    2.5 Echarts
第3章 江西省新一代信息技术整体态势分析
    3.1 开发环境的配置
        3.1.1 基本配置
        3.1.2 Spark集群建立
        3.1.3 Spark开发环境的搭建
    3.2 专利数据获取与处理
        3.2.1 检索式的构建
        3.2.2 数据获取
        3.2.3 数据清洗
        3.2.4 Spark统计与排序
    3.3 江西省新一代信息技术产业整体分析
        3.3.1 申请量年度变化分析
        3.3.2 法律状态分析
        3.3.3 主要申请人分布情况分析
        3.3.4 发展热点分析
        3.3.5 全国范围内新一代信息技术产业整体分析
    3.4 本章小结
第4章 江西省新一代信息技术产业聚类分析
    4.1 聚类算法的选定
        4.1.1 聚类算法的分类
        4.1.2 K-Means聚类算法
    4.2 改进的K-Means聚类算法
    4.3 基于Spark的文本特征构造
    4.4 改进的聚类算法在Spark平台中的实现
    4.5 专利数据聚类分析实验结果
        4.5.1 专利年度发展状况
        4.5.2 专利申请热点聚类挖掘
        4.5.3 专利高产申请人聚类分析
        4.5.4 全国各省市发展情况聚类分析
    4.6 本章小结
第5章 新一代信息技术产业及相关技术发展预测
    5.1 Logistic模型
    5.2 S曲线预测
    5.3 全国新一代信息技术产业及其关键技术发展预测
        5.3.1 人工智能技术
        5.3.2 物联网技术
        5.3.3 新能源汽车
    5.4 江西省新一代信息技术产业发展现状分析
    5.5 基于技术生命周期的发展战略
    5.6 本章小结
第6章 新一代信息技术专利数据分析系统的实现
    6.1 可行性分析
        6.1.1 技术可行性
        6.1.2 经济可行性
    6.2 系统分析与设计
        6.2.1 实际需求分析
        6.2.2 功能需求分析
        6.2.3 数据库设计
        6.2.4 系统整体架构设计
    6.3 可视化系统的实现
    6.4 本章小结
第7章 总结与展望
    7.1 总结
    7.2 展望
致谢
参考文献
攻读学位期间的研究成果



本文编号:3853885

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3853885.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户ac309***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]