1.分布式文件系统讨论管理数据,即跨多台计算机或服务器的文件或文件夹。换句话说,DFS是一种文件系统,允许我们将数据存储在群集中的多个节点或机器上,并允许多个用户访问数据。所以基本上,它与您的机器中可用的文件系统具有相同的用途。
2.DFS为文件系统提供了单个访问点和一个逻辑树结构,通过DFS,用户在访问文件时不需要知道它们的实际物理位置,即分布在多个服务器上的文件在用户面前就如同在网络的同一个位置。
1.HDFS (Hadoop Distributed File System)是Hadoop的核心子项目,是一个可以运行在普通硬件设备上的分布式文件系统,是分布式计算中数据存储和管理的基础,是基于流 数据模式访问和处理超大文件的需求而开发的。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储,给超大数据集(Large Data Set) 的应用处理带来了很多便利。
2.HDFS 设计目标
· 硬件故障是常态,而不是异常
· 适合流式数据访问
· 适合大规模数据集
· 简单的一致性模型
· 移动计算比移动数据更划算
· 轻便的访问异构的软硬件平台
2.1.流式数据、批式数据、实时数据、历史数据的区别
大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。 基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。 基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。
2.2.一致性模型
以下面的例子说: 一行X值在节点M和节点N上有副本 客户端A在节点M上写入行X的值 一段时间后,客户端B在节点N上读取行X的值 一致性模型所要做的就是决定客户端B能否看到客户端A写的值 常用的一致性模型: 1、最终一致性(eventual consistency) 最终一致性有个重大缺点:在系统达到副本收敛之前,系统有可能返回任何值 2、强一致性模型(strong consistency) 所有并行的进程(节点,处理器等)看到的是一样的存取顺序 也就是只有一种状态被所有的并行进程观察到,对比与弱一致性(weak consitency),并行进程可能看到不同的状态。
2.3.移动计算,移动数据
移动数据:业务逻辑处理数据时,把数据移动到逻辑计算节点进行计算 移动计算:业务逻辑处理数据时,把计算程序移动到需要计算的数据节点进行计算
1、文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的Block,然后进行存储。
2、与 NameNode 交互,获取文件的位置信息。
3、与 DataNode 交互,读取或者写入数据。
4、Client 提供一些命令来管理 HDFS,比如启动或者关闭HDFS。
5、Client 可以通过一些命令来访问 HDFS。
1、管理 HDFS 的名称空间。
2、管理数据块(Block)映射信息
3、配置副本策略
4、处理客户端读写请求。
1、存储实际的数据块。
2、执行数据块的读/写操作。
1、辅助 NameNode,分担其工作量。
2、定期合并 fsimage和fsedits,并推送给NameNode。
3、在紧急情况下,可辅助恢复 NameNode。
首先,Client发起文件上传请求,即通过RPC与NameNode建立通讯。
NameNode与各DataNode使用心跳机制来获取DataNode信息。NameNode收到Client请求后,获取DataNode信息,并将可存储文件的节点信息返回给Client。
Client收到NameNode返回的信息,与对应的DataNode节点取得联系,并向该节点写文件。
文件写入到DataNode后,以流水线的方式复制到其他DataNode(当然,这里面也有DataNode向NameNode申请block,这里不详细介绍),至于复制多少份,与所配置的hdfs-default.xml中的dfs.replication相关。
(1) 高容错性
(2) 适合批处理
它是通过移动计算而不是移动数据。
它会把数据位置暴露给计算框架。
(3) 适合大数据处理
(4) 流式数据访问
(5) 可构建在廉价机器上
不适合低延时数据访问
无法高效的对大量小文件进行存储
无法并发写入、文件随机修改
namenode 如何选择在哪个 datanode 存储副本(replication)?这里需要对可靠性、写入带宽和读取带宽进行权衡。 Hadoop 对 datanode 存储副本有自己的副本策略,在其发展过程中一共有两个版本的副本策略,分别如下所示。
第一个副本:存储在同机架的不同节点上。
第二个副本:存储在同机架的另外一个节点上。
第三个副本:存储在不同机架的另外一个节点。其它副本:选择随机存储。
第一个副本:存储在同 Client 相同节点上。
第二个副本:存储在不同机架的节点上。
第三个副本:存储在第二个副本机架中的另外一个节点上。其它副本:选择随机存储。
本文作者:Yui_HTT
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!