Hadoop源码分析HDFS Client向HDFS写入数据的过程解析-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Hadoop源码分析HDFS Client向HDFS写入数据的过程解析

阅读量：7038 次

发布时间：2019-06-28

本文共 755 字，大约阅读时间需要 2 分钟。

Client以数据块（Block）为单位进行数据存储。按照我们一般的理解，Client向HDFS写入数据，首先需要向NameNode申请Block；申请Block完成后，申请DataNode（包括备份存储的DataNode）；二者完成后，Clent进行与DataNode之间的数据存储。

我们知道NameNode之中维护两张非常重要的表，一张是filename→blocks的映射；另外一张是block→machinelist的映射。如果是我进行设计，这两张表都可以在申请的时候完成记录。HDFS在在实现过程中，采用了另外一种方式。首先filename→blocks是在申请过程中进行记录的。当Client申请Block的时候，NameNode分配Block给客户端，并将该Block记录到该File的INode当中；在申请Block的时候，NameNode还会将DataNode和备份存储的DataNode发送给Client。但是，此时NameNode并没有记录Block和DataNode（machinelist)的映射关系。Client向DataNode写入数据完成后，由DataNode向NameNode周期性的进行汇报，报告自己节点所存储的所有Block（思考一下，为什么这么实现？）。我自己以为之所以要这么实现主要是为了考虑数据的可靠性，如果在Client和数据的传输过程中数据出现了问题，那么已经记录在NameNode 中的block→machinelist就会随之改变。当然这只是我自己的考虑，正确与否还有待考证。另外还有一个需要考虑的问题是，DataNode报告自己的block列表的频率是多少呢？

转载于:https://my.oschina.net/sdzzboy/blog/164143

你可能感兴趣的文章

FZU2169 shadow题解

教你正确打开async/await关键字的使用

python 字符串复制

【SignalR学习系列】2. 第一个SignalR程序

js window.onload 的一个验证

Lesson 1#08 格式化输出

Nand Flash与Nor Flash

sqlserver datetime的bug？

python中元组tuple详细解析

UVA 11178 Morley's Theorem (计算几何）

颜色渐变的柱状图

基于vue-cli配置移动端自适应

处理eclipse启动时报java.lang.IllegalStateException

BAT美团滴滴java面试大纲（带答案版）之四：多线程Lock

第一次作业

51nod 1068 Bash游戏 V3 博弈

vue-axios当只调用vue.js又需要axios请求多时

CodeM美团点评编程大赛初赛A轮

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-06 22:52:10 当前IP: 3.144.224.68 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我