IT外包网管服务,Hadoop如何进行大规模的数据处理? 工具、优点、缺点、使用示例、应用场景

发布者:上海IT外包来源:http://www.lanmon.net点击数:867


Apache  Hadoop是一个开源框架,用户可以高效地管理和处理分布式计算环境中的大量数据。 Apache  Hadoop包括四个主要模块
(1) Hadoop分布式文件系统(HDFS  )
数据存储在Hadoop分布式文件系统中,与计算机上的本地文件系统类似。 HDFS提供了比传统文件系统更好的数据吞吐量。 此外,HDFS还提供卓越的可扩展性。 用户可以在业务硬件上轻松地从一台计算机扩展到数千台。
(2) YARN
YARN用于修订任务,负责管理和监视集群节点和其他资源。
(3) MapReduce
Hadoop的MapReduce模块有助于对并行数据纠正计算的执行进行纠正。 MapReduce的Map任务将输入数据转换为键值对。 减少任务消耗输入,汇总它生成结果。
(4)硬件通用
Hadoop  Common在每个模块中使用标准的Java库。
由于过去互联网的发展,生成了庞大数量的网页。 数量庞大,使得在线搜索信息变得困难。 这些数据是大数据,有两个主要问题:
所有这些数据都很难以高效、易于搜索的方式存储
保存的数据很难处理
为了解决这些问题,开发人员致力于许多开源项目,从而更快、更高效地返回Web搜索结果。 他们的解决方案是在服务群集之间分布数据和校正以实现同步。
最后,Hadoop成为了这些问题的解决方案,带来了诸如降低服务部署成本等诸多好处。
收集不同格式数据的应用程序通过连接到名称节点的Hadoop  API存储在Hadoop群集中。 NameNode捕获文件目录的结构以及每个创建文件的“块”位置。 Hadoop在DataNode之间复制这些块以进行并行处理。
MapReduce执行数据查询。 映射所有DataNode以减少与HDFS中的数据相关的任务。 MapReduce本身解释了它的作用。 Map任务在提供的输入文件的每个节点上执行,reducer链接数据并组织最终输出。
最有用的大规模数据处理工具包括
Apache  Hive:Apache  Hive是一个数据仓库,用于处理存储在Hadoop文件系统中的大量数据。Apache  zookeeper—Apache  zookeeper自动执行故障切换,以减轻出现故障的NameNode的影响。
Apache  HBase:Apache  HBase是Hadoop的开源非关系数据库。
Apache  Flume:Apache  Flume是一种分布式服务,用于对大量日志数据进行数据流传输。
Apache  Sqoop:Apache  Sqoop是用于在Hadoop和关系数据库之间迁移数据的命令行工具。
Apache  Pig:Apache  Pig是用于开发在Hadoop中运行的作业的Apache开发平台。 使用的软件语言是Pig  Latin。
Apache  Oozie:Apache  Oozie是一种促进硬件作业管理的调度系统。
Apache  HCatalog:Apache  HCatalog是一种存储和表管理工具,用于对来自不同数据处理工具的数据进行排序。
IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部