IT外包网管服务，Hadoop如何进行大规模的数据处理？工具、优点、缺点、使用示例、应用场景-IT外包官网-蓝盟集团

IT外包网管服务，Hadoop如何进行大规模的数据处理？工具、优点、缺点、使用示例、应用场景

发布者：上海IT外包来源：http://www.lanmon.net点击数：867

Apache Hadoop是一个开源框架，用户可以高效地管理和处理分布式计算环境中的大量数据。 Apache Hadoop包括四个主要模块
(1) Hadoop分布式文件系统(HDFS )
数据存储在Hadoop分布式文件系统中，与计算机上的本地文件系统类似。 HDFS提供了比传统文件系统更好的数据吞吐量。此外，HDFS还提供卓越的可扩展性。用户可以在业务硬件上轻松地从一台计算机扩展到数千台。
(2) YARN
YARN用于修订任务，负责管理和监视集群节点和其他资源。
(3) MapReduce
Hadoop的MapReduce模块有助于对并行数据纠正计算的执行进行纠正。 MapReduce的Map任务将输入数据转换为键值对。减少任务消耗输入，汇总它生成结果。
(4)硬件通用
Hadoop Common在每个模块中使用标准的Java库。
由于过去互联网的发展，生成了庞大数量的网页。数量庞大，使得在线搜索信息变得困难。这些数据是大数据，有两个主要问题：
所有这些数据都很难以高效、易于搜索的方式存储
保存的数据很难处理
为了解决这些问题，开发人员致力于许多开源项目，从而更快、更高效地返回Web搜索结果。他们的解决方案是在服务群集之间分布数据和校正以实现同步。
最后，Hadoop成为了这些问题的解决方案，带来了诸如降低服务部署成本等诸多好处。
收集不同格式数据的应用程序通过连接到名称节点的Hadoop API存储在Hadoop群集中。 NameNode捕获文件目录的结构以及每个创建文件的“块”位置。 Hadoop在DataNode之间复制这些块以进行并行处理。
MapReduce执行数据查询。映射所有DataNode以减少与HDFS中的数据相关的任务。 MapReduce本身解释了它的作用。 Map任务在提供的输入文件的每个节点上执行，reducer链接数据并组织最终输出。
最有用的大规模数据处理工具包括
Apache Hive:Apache Hive是一个数据仓库，用于处理存储在Hadoop文件系统中的大量数据。Apache zookeeper—Apache zookeeper自动执行故障切换，以减轻出现故障的NameNode的影响。
Apache HBase:Apache HBase是Hadoop的开源非关系数据库。
Apache Flume:Apache Flume是一种分布式服务，用于对大量日志数据进行数据流传输。
Apache Sqoop:Apache Sqoop是用于在Hadoop和关系数据库之间迁移数据的命令行工具。
Apache Pig:Apache Pig是用于开发在Hadoop中运行的作业的Apache开发平台。使用的软件语言是Pig Latin。
Apache Oozie:Apache Oozie是一种促进硬件作业管理的调度系统。
Apache HCatalog:Apache HCatalog是一种存储和表管理工具，用于对来自不同数据处理工具的数据进行排序。

上一篇: 蓝盟IT外包，元宇宙：四梁八柱是什么
下一篇: IT外包网管服务，数据之美：可视化给出意想不到的答案！
分享到：

微软云

IT采购

弱电工程

系统集成

客户故事

IT外包网管服务，Hadoop如何进行大规模的数据处理？工具、优点、缺点、使用示例、应用场景

400-635-8089

微软云

IT采购

弱电工程

系统集成

客户故事

IT外包网管服务，Hadoop如何进行大规模的数据处理？ 工具、优点、缺点、使用示例、应用场景

400-635-8089

IT外包网管服务，Hadoop如何进行大规模的数据处理？工具、优点、缺点、使用示例、应用场景