Spark分区数据放置方法研究与优化

发布时间：2023-11-26 15:04

　　随着社会的快速发展及进步,人们的生活方式也由大数据时代的到来发生了巨大的变化,不但衍生出许多的新型行业,也使大数据技术渗透到各行各业中,这不仅促进了社会的高效发展也为人们的生活带来了便捷,但与此同时所产生的海量数据如何进行快速的处理也是不可忽视的问题。据英特尔公司预测,全球数据总量在2020年将达到44ZB,而中国产生的数据量将达到8ZB,大约占据全球总数据量的五分之一。所以现今需要处理的数据越来越多,迫切需要我们对海量的数据做出快速且有效的处理,而Spark作为快速的计算引擎已成为主流的大数据处理平台。Spark的高效一方面依赖于内存计算本质,另一方面与分区带来的并行度有密切关系,但是在数据重复率较大的情况下,使用Spark默认哈希分区算法处理数据时,将导致每个分区中的数据量不均匀,并且在极端情况下,某些分区拥有RDD的全部数据,所以分区的倾斜会导致大数据集群系统资源分布不均匀、作业执行效率低下等问题。本文的主要研究内容和工作集中在以下几个方面:(1)设计并实现了优化哈希分区的三种哈希分区器,分别为随机数分区、随机数+二次分配、相邻位置三种分区方式,通过实验验证在对不做任何内容要求的...

【文章页数】：45 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 引言
    1.1 研究背景和意义
    1.2 研究现状分析
        1.2.1 按照处理阶段划分方式
        1.2.2 按照分区算法优化划分方式
    1.3 研究目标及内容
    1.4 论文组织结构
    1.5 本章小结
2 Spark原理简述
    2.1 关于Spark和Hadoop的对比
        2.1.1 架构比较
        2.1.2 性能比较
        2.1.3 易用性比较
    2.2 Spark架构设计及运行原理
        2.2.1 Spark架构设计
        2.2.2 Spark运行原理
    2.3 RDD介绍
        2.3.1 创建RDD方式
        2.3.2 RDD依赖关系
    2.4 shuffle介绍
    2.5 本章小结
3 Spark分区数据放置优化方案
    3.1 Spark分区数据放置方案
        3.1.1 HashPartition数据放置方案
        3.1.2 RangePartition数据放置方案
    3.2 HashPartitioner数据放置优化方案
        3.2.1 随机数分区策略（R-HashPartitioner)
        3.2.2 随机数+二次分配策略(R-R-HashPartitioner)
        3.2.3 相邻位置策略(N-HashPartitioner)
    3.3 本章小结
4 HashPartition数据放置优化方案实现与验证
    4.1 实验环境搭建
        4.1.1 平台环境
        4.1.2 Hadoop平台搭建
        4.1.3 Spark集群搭建
    4.2 Spark作业任务调度
    4.3 实验环境
    4.4 WordCount实验
        4.4.1 算法执行平均时间对比
        4.4.2 算法执行最好时间
        4.4.3 算法执行最差时间
    4.5 PageRank实验
        4.5.1 算法执行平均时间
        4.5.2 算法执行最好时间
        4.5.3 算法执行最差时间
    4.6 数据倾斜程度比较
    4.7 本章小结
5 总结与展望
    5.1 总结
    5.2 展望
致谢
参考文献
作者简介

本文编号：3868011

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3868011.html

上一篇：基于机器视觉的安全套表面缺陷检测研究
下一篇：基于自适应特征组合的空间感知跟踪算法研究