发布者:tangkuikui 发布时间:2020/9/8 点击数:3251
数据检索阶段通常包括从多源异构数据源(批处理数据源或实时流数据源)检索数据
数据保存阶段需要保存在上一阶段获取的数据,以供后续分析和处理。 常用的存储方法是“磁盘”(disk )和“无盘”(diskless )格式。
在数据分析阶段,针对不同的应用需求,使用不同的模型和算法来分析和处理对数数据。
在表1-2中,与3代技术的不同处理阶段相关的工具重叠。 另外,关于混合计算技术,其本身既涉及批处理技术又涉及实时处理技术,实现混合计算模型的技术也比单纯的批处理技术和实时处理技术复杂,考虑到混合计算技术的上述特征
另外,作为商用硬件(commodity hardware )专用修订的文件系统,也弄清了HDFS的独特之处:首先具有高的抗故障性,其次能够部署到比较廉价的硬件,最后是高吞吐量的应用软件
对最终用户来说,HDFS是一个传统的文件系统,包括创建、修改和删除文件和目录等常见操作。

HDFS采用主/从(Master/Slave )体系结构。 单个HDFS群集只包含一个名称节点(NameNode ),它提供元数据服务,管理文件系统的名称空间(namespace ),并允许用户访问文件。 单个HDFS集群还可以包括多个用于管理与其相关联的存储空间的数据节点。
HDFS提供从外部将文件系统的名称空间作为用户对数数据进行访问的接口。
在HDFS内,单个文件通常将其分割成多个块,每个块存储在一系列的数据节点上。 名称节点在整个HDFS群集的名称空间中执行文件和目录的打开、读取、关闭等操作。 文件块和数据节点之间的映射也由名称节点进行管理。 该数据节点基于该名称节点的指令执行块的创建、复制、删除等。