蓝盟IT外包，大数据平台软件有哪些？-IT外包官网-蓝盟集团

蓝盟IT外包，大数据平台软件有哪些？

发布者：上海IT外包来源：http://www.lanmon.net点击数：1305

蓝盟IT小贴士，来喽！
查询引擎
一、Phoenix
前言：这是Java中间层，允许开发者在Apache HBase上执行SQL查询。 Phoenix完全是用Java编写的，代码位于GitHub上，提供可以在客户端嵌入的JDBC驱动程序。
Phoenix查询引擎将SQL查询转换为一个或多个HBase scan，并组织执行以生成标准的JDBC结果集。如果直接使用HBase API、协作处理器和自定义过滤器，则在简单的查询中性能级别为毫秒，在百万级别的行数中性能级别为秒。
Phoenix最引人注目的特性是：
内置的JDBC驱动程序实现了大多数java.sql接口，包括元数据API可以使用多个行键或键/值单元对列建模的完整查询支持，并且可以使用多个谓词和优化的扫描键DDL支持。用CREATE TABLE、DROP TABLE、ALTER TABLE添加。快照查询包括以行为单位插入的UPSERT VALUES、相同或不同表之间大量数据传输的UPSERT SELECT、删除行的DELETE在客户端批处理中实现的有限事务支持表
二、Stinger
个人资料：原称为Tez，由新一代Hive、Hortonworks主导开发，在YARN上运行的DAG计算框架。
在某些测试中，Stinger的性能提高了10倍左右，Hive支持更多的SQL。主要优点包括：
允许用户在Hadoop中获得更多的查询匹配。这包括OVER这样的词法分析功能，支持WHERE查询，使Hive的样式系统适合SQL模型。
优化了Hive请求执行计划，将优化后的请求时间缩短了90%。变更了Hive执行引擎，增加了单Hive任务的被秒处理记录数。
Hive社区引入了新的列式文档格式(如ORC文档)，为存储Hive数据提供了更现代、更高效、更高性能的方法。
为了消除Hive的延迟和吞吐量限制，引入了新的运行时框架——Tez。 Tez通过消除不必要的task、故障同步和对HDFS的读写操作来优化Hive job。这将优化Hadoop内部的执行链，完全加快Hive负载处理。三、Presto
前言： Facebook开源数据查询引擎Presto可以快速、交互地分析250PB以上的数据。这个项目于2012年秋天开始开发。目前，该项目在1000多名Facebook员工中使用，运行30000多个查询，每天的数据为1PB级别。据Facebook报道，Presto的性能比Hive和Map*Reduce等好10倍以上。
Presto现在支持ANSI SQL的大部分特效。这包括联合查询、左右联接、子查询和一些聚合和计算函数。支持几乎不同的静态计数等。
四、鲨鱼
前言： Shark即Hive on Spark本质上通过Hive的HQL分析，将HQL翻译成Spark上的RDD操作，通过Hive的metadata取得数据库内的表信息，实际的HDFS上的数据和文件是Shark Shark的特征是高速、与Hive完全兼容，在shell模式下使用rdd2sql ()这样的API，在RQL环境中继续运算L中得到的结果集，自己制作简单的机器学习和简单的分析处理函数，进一步生成HQL结果。
Shark速度快的原因是，除了Spark平台提供的基于内存的迭代计算之外，在设计上还对Spark进行过一定的改造，主要包括：
partialdagexecution :优化join，调整并行粒度。因为Spark本身的广泛和狭窄依赖性会影响并行计算和速度。
基于列的压缩和保存：按列保存HQL表数据。每列都是array，存在于JVM中，避免了JVM GC的低效。压缩和解压缩的技术是雅虎。被提供了
毕竟，Shark是插件式的，在我现有的Spark、Hive和hadoop-client之间，如果这两个可用，Shark只要取得Hive的配置(也有metastore和exec等键包)，就可以使用Spark 在SQL on Hadoop中，Shark与Impala、Stringer不同，这些系统各有自己的设计思路，相对于优化和改善MR的思路，Shark的思路更简单明了。五、Pig
个人资料： Pig是一种编程语言，简化了Hadoop中常见的工作任务。 Pig可以加载数据，表现转换数据，保存最终结果。内置于Pig中的操作使半结构化数据具有日志文件等意义。此外，Pig扩展使用在Java中添加的自定义数据类型，支持数据转换。
Pig的最大作用是在mapreduce算法(框架)中实现一组shell脚本。正如我们熟悉的SQL语句，在Pig中被称为Pig Latin。此脚本允许您对加载的数据进行排序、过滤、合计和分组。
六、Cloudera Impala
前言： Cloudera Impala可以直接对存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。除了使用相同的存储平台外，Impala和Apache Hive也使用相同的元数据、SQL语法(Hive SQL )、ODBC驱动程序和用户界面(Hue Beeswax )，因此类似于用户的统一
Cloudera Impala是进行大规模数据查询的补充工具。 Impala不能取代像Hive这样基于MapReduce的分布式处理框架。基于Hive和其他MapReduce的计算框架非常适合长时间运行的批处理作业，如需要ETL作业的大量Extract、Transform和Load。
Impala提供了以下内容：
数据科学家或数据分析师熟悉的SQL接口
可以使用Apache Hadoop大数据进行交互式数据查询

singlesystemforbigdataprocessingandanalyticssocustomerscanavoidcostlymodelingandetljustforanalytics

文/上海蓝盟 IT外包专家

上一篇: 蓝盟IT外包，元宇宙：四梁八柱是什么
下一篇: 蓝盟IT外包，IT计划制造商正在进行大规模的数据驱动型业务变革。
分享到：

微软云

IT采购

弱电工程

系统集成

客户故事

蓝盟IT外包，大数据平台软件有哪些？

400-635-8089