筛选:  论文资料库 硕士博士论文数据库 数据统计论文 本科论文数据库 硕博士论文数据库 医学论文数据统计 博硕士论文文摘库 国外学位论文 博硕士论文全文数据库 文件检索论文

【硕士论文】关于Hadoop中I/O的研究(论文材料)

星级: ★★★★ 期刊: 省级期刊作者:刘涌 韩伟 赵静雅 浏览量:5787 论文级别:优质本章主题:数据文件原创论文: 5156论文网更新时间:审核稿件编辑:Taylor本文版权归属:www.5156chinese.cn 分享次数:3646 评论次数: 9159

导读:关于Hadoop中I/O的研究是一篇关于数据文件的本科毕业论文范文,免费分享供广大学者参考,希望对学生们写作论文提供清晰写作思路。

摘要:Hadoop在存储数据的过程中,首先要保证的就是数据的完整性,通常,Hadoop是根据由数据计算出的校验和进行数据验证的,从而保证数据的完整性,为了达到持续保持完整性的目的,Hadoop会分别在I/O过程中和利用定时扫描程序验证数据并具备一套完善的纠正机制;在此前提下,通过文件的压缩,Hadoop可以有效地减少文件占用的空间并提高文件传输速度,相关的压缩算法有bzip2和LZO等.

关键词:Hadoop;HDFS;I/O;压缩

中图分类号:TP311文献标识码:A文章编号:1009-3044(2018)15-0239-01

1引言

Hadoop用户都希望自己的数据在存储和调用的过程中,不会丢失或损坏,尽管磁盘和网络中的每个I/O操作在读写过程中发生错误的情况非常少,但当系统中需要处理的数据量达到Hadoop的处理极限时,数据的误码率会明显升高.

检测数据是否损坏的主要手段是通过校验和的方式去验证数据:在数据产生时可根据相应协议对数据进行叠加相加的操作计算出初始校验和,当数据通过一个不可靠通道到达目的地址后使用相同的方法计算校验和,将两次校验和结果匹配比较,如果结果为不匹配则证明数据已经损坏,反之则说明数据极有可能是正常传输的数据.

2HDFS的数据完整性

HDFS会对所有写入的数据进行校验和计算,并在读取时进行校验和验证.它针对每个由io。bytes。per。checksum指定字节的数据计算校验和.默认情况下是512Bytes,由于CRC-32循环冗余校验的校验和是32位,即4Bytes,所以存储校验和的额外开销低于1%.

Hadoop通过校验和验证数据的过程与其他系统中校验和的应用并没有本质的不同:数据节点DataNode在收到数据后存储数据并验证校验和,正在写数据的客户端将数据机器校验和发送到由一系列DataNode组成的管线,管线中最后一个DataNode负责验证校验和,如果检测到校验和不匹配,客户端会收到一个ChecksumException异常,它是IOException异常的一个子类,后者会以应用程序特定的方式进行响应处理,如重新发送等.

关于Hadoop中I/O的研究
数据文件本科毕业论文范文

反之,在客户端从DataNode中读取数据时,也会验证校验和,将他们与DataNode中存储的校验和进行比较,每个DataNode都持续保存一个用于验证的校验和日志persistentlogofchecksumverification,当客户端成功验证校验和后,DataNode也会更新该日志,确保数据和校验和均保持最新的确认正确状态.

本篇关于Hadoop中I/O的研究论文范文综合参考评定如下
有关论文范文主题研究:关于数据本科毕业论文范文大学生适用:学院学士论文
相关参考文献下载数量:857写作解决问题:本科毕业论文范文撰写
毕业论文开题报告:论文开题报告范例职称论文适用:怎么写中级职称论文
所属大学生专业类别:数据专业本科毕业论文范文论文题目推荐度:优质选题

要彻底持久的保持数据的完整性,除了在I/O过程中均进行验证外,还要防止小概率事件的发生,即每个DataNode都会在后台运行一个DataBlockScanner,定期扫描验证存储在DataNode上的所有数据块,从而保证已经存储的数据不会因为物理存储媒介的原因造成数据的损失.

HDFS存储着每个数据块的复本,DataNode通过上述过程及时的发现数据的损坏,利用ChecksumException报警,将该数据块复本标记为已损坏,暂时屏蔽这个复本的I/O操作,之后,安排该数据块的一个其他复本复制到另一个DataNode,最终将已损坏的数据块复本删除,从而保持所有数据的完整性.

3压缩与切分

撰写数据专业硕士论文
播放次数:2640 评论人数:857

对文件进行压缩,不仅可以减少存储文件所需占用的磁盘空间,还可以提高文件在网络和磁盘中传输的速度,因此,在Hadoop中数据文件的压缩尤为重要,常见的压缩格式有:deflate、gzip、bzip2、LZO、LZ4、Snappy等.

所有的压缩算法都需要在速度与压缩率之间权衡,提高压缩、解压缩速度,通常就意味着无法进行复杂的压缩,即能压缩减少的空间很少,因此,所有压缩工具都提供9级不同程度的压缩参数供使用者自由选择,选项-1为优化压缩速度,选项-9为优化压缩空间.不同的压缩工具的压缩性能不同:bzip2的压缩能力比gzip强,但压缩速度稍慢于后者,尽管bzip2本身的解压速度比压缩速度快,但仍比其他压缩格式要慢一些;LZO、LZ4和Snappy的压缩速度都比gzip高一个数量级,但压缩效率稍逊一筹;而LZ4和Snappy的解压速度比LZO高很多.

上述压缩算法中仅有bzip2可切分,如果LZO文件已经在预处理过程中被索引,则LZO文件是可切分的.是否支持切分,决定了是否可以搜索数据流的任意位置并进一步往下读取数据,这种特性尤其适合MapReduce.在Hadoop中,使用这两种支持切分的压缩格式要比在应用中将文件切分成块,再为每个数据块进行压缩至大小近似于HDFS块的大小的效率更高;如果想要进一步提高效率,可以使用顺序文件、RCFile或Avro等同时支持压缩和切分的文件格式,最好再与一个快速压缩工具联合使用,如LZO、LZ4或Snappy等.当然,以上三种手段都比不压缩文件直接存储的效率更高.

4结束语

Hadoop中处理的数据往往动辄好几个TB,在这种情况下,既要保证数据的正确性和完整性,又要考虑数据占用的空间尽可能小,存储和运行数据块的速度尽可能快,因此,对Hadoop中的I/O操作进行分析优化就显得十分有必要,本文仅就上述几方面进行了简述,关于I/O相关工作,还有很大的发展空间,具有广阔的开发前景.

[ 参考文献 ]

1、数据文件传输故障的分析和处理方法
(新疆焉耆县气象局新疆焉耆841100)根据国家气象局业务体制改革的要求和部署,自2012年4月1日起,新疆地区所有台站取消天气报和加密天气报的发送,改为发送新长Z文件传输数据文件,要求每个时次

2、电视新闻制作网iMSC数据安全平台的设计与使用
韩涛 中国海洋大学信息科学与工程学院 马晓瑛 青岛市广播电视台 本文介绍了iMSC数据安全传输交互平台在青岛台的设计、搭建和使用情况,分析了该平台的特点及工作流

3、城建档案电子文件异地备份
邹 强 [摘 要]传统的本地备份系统在容灾能力上有所欠缺,要切实保障城建档案电子文件的安全还需建立异地备份系统。本文提出了两种适用于城建档案电子文件异地备份的方法并分别分析了其特点;

硕士博士论文数据库数据统计论文本科论文数据库


此篇论文浏览归纳:熟读此篇有关数据文件方面的本科毕业论文范文后,对学生们在撰写本科和硕士毕业论文研究生以及专科毕业生论文数据相关论文开题报告范文和论文格式以及文献综述模版时会起到帮助。

本篇有关数据文件毕业论文范文免费供大学生阅读参考-点击更多303782篇数据文件相关论文开题报告格式范文模版供阅读下载
延伸阅读: 免费期刊论文数据库财务统计论文写论文去哪里找数据外文期刊论文国外博士论文数据库免费学位论文数据库外文学位论文数据库哪里找毕业论文国外学位论文数据库数据库论文摘要
关于马克思论文中学生 麻醉护士论文 找毕业论文题目的技巧 什么是论文的引言 论文格式问题 土建问题论文 机械销售论文 有关利比亚的论文 汉唐古典舞论文 论文怎么加参考文献