蓝盟IT外包,大数据平台软件有哪些?

发布者:上海IT外包来源:http://www.lanmon.net点击数:1305

蓝盟IT小贴士,来喽!
查询引擎
一、Phoenix
前言:这是Java中间层,允许开发者在Apache  HBase上执行SQL查询。 Phoenix完全是用Java编写的,代码位于GitHub上,提供可以在客户端嵌入的JDBC驱动程序。
Phoenix查询引擎将SQL查询转换为一个或多个HBase  scan,并组织执行以生成标准的JDBC结果集。 如果直接使用HBase  API、协作处理器和自定义过滤器,则在简单的查询中性能级别为毫秒,在百万级别的行数中性能级别为秒。
Phoenix最引人注目的特性是:
内置的JDBC驱动程序实现了大多数java.sql接口,包括元数据API可以使用多个行键或键/值单元对列建模的完整查询支持,并且可以使用多个谓词和优化的扫描键DDL支持。 用CREATE  TABLE、DROP  TABLE、ALTER  TABLE添加。 快照查询包括以行为单位插入的UPSERT  VALUES、相同或不同表之间大量数据传输的UPSERT  SELECT、删除行的DELETE在客户端批处理中实现的有限事务支持表
二、Stinger
个人资料:原称为Tez,由新一代Hive、Hortonworks主导开发,在YARN上运行的DAG计算框架。
在某些测试中,Stinger的性能提高了10倍左右,Hive支持更多的SQL。 主要优点包括:
允许用户在Hadoop中获得更多的查询匹配。 这包括OVER这样的词法分析功能,支持WHERE查询,使Hive的样式系统适合SQL模型。
优化了Hive请求执行计划,将优化后的请求时间缩短了90%。 变更了Hive执行引擎,增加了单Hive任务的被秒处理记录数。
Hive社区引入了新的列式文档格式(如ORC文档),为存储Hive数据提供了更现代、更高效、更高性能的方法。
为了消除Hive的延迟和吞吐量限制,引入了新的运行时框架——Tez。 Tez通过消除不必要的task、故障同步和对HDFS的读写操作来优化Hive  job。 这将优化Hadoop内部的执行链,完全加快Hive负载处理。三、Presto
前言: Facebook开源数据查询引擎Presto可以快速、交互地分析250PB以上的数据。 这个项目于2012年秋天开始开发。 目前,该项目在1000多名Facebook员工中使用,运行30000多个查询,每天的数据为1PB级别。 据Facebook报道,Presto的性能比Hive和Map*Reduce等好10倍以上。
Presto现在支持ANSI  SQL的大部分特效。 这包括联合查询、左右联接、子查询和一些聚合和计算函数。 支持几乎不同的静态计数等。
四、鲨鱼
前言: Shark即Hive  on  Spark本质上通过Hive的HQL分析,将HQL翻译成Spark上的RDD操作,通过Hive的metadata取得数据库内的表信息,实际的HDFS上的数据和文件是Shark  Shark的特征是高速、与Hive完全兼容,在shell模式下使用rdd2sql  ()这样的API,在RQL环境中继续运算L中得到的结果集,自己制作简单的机器学习和简单的分析处理函数,进一步生成HQL结果。
Shark速度快的原因是,除了Spark平台提供的基于内存的迭代计算之外,在设计上还对Spark进行过一定的改造,主要包括:
partialdagexecution  :优化join,调整并行粒度。 因为Spark本身的广泛和狭窄依赖性会影响并行计算和速度。
基于列的压缩和保存:按列保存HQL表数据。 每列都是array,存在于JVM中,避免了JVM  GC的低效。 压缩和解压缩的技术是雅虎。 被提供了
毕竟,Shark是插件式的,在我现有的Spark、Hive和hadoop-client之间,如果这两个可用,Shark只要取得Hive的配置(也有metastore和exec等键包),就可以使用Spark  在SQL  on  Hadoop中,Shark与Impala、Stringer不同,这些系统各有自己的设计思路,相对于优化和改善MR的思路,Shark的思路更简单明了。五、Pig
个人资料: Pig是一种编程语言,简化了Hadoop中常见的工作任务。 Pig可以加载数据,表现转换数据,保存最终结果。 内置于Pig中的操作使半结构化数据具有日志文件等意义。 此外,Pig扩展使用在Java中添加的自定义数据类型,支持数据转换。
Pig的最大作用是在mapreduce算法(框架)中实现一组shell脚本。 正如我们熟悉的SQL语句,在Pig中被称为Pig  Latin。 此脚本允许您对加载的数据进行排序、过滤、合计和分组。
六、Cloudera  Impala
前言: Cloudera  Impala可以直接对存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。 除了使用相同的存储平台外,Impala和Apache  Hive也使用相同的元数据、SQL语法(Hive  SQL  )、ODBC驱动程序和用户界面(Hue  Beeswax  ),因此类似于用户的统一
Cloudera  Impala是进行大规模数据查询的补充工具。 Impala不能取代像Hive这样基于MapReduce的分布式处理框架。 基于Hive和其他MapReduce的计算框架非常适合长时间运行的批处理作业,如需要ETL作业的大量Extract、Transform和Load。
Impala提供了以下内容:
数据科学家或数据分析师熟悉的SQL接口
可以使用Apache  Hadoop大数据进行交互式数据查询

singlesystemforbigdataprocessingandanalyticssocustomerscanavoidcostlymodelingandetljustforanalytics

文/上海蓝盟     IT外包专家

IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部