蓝盟IT小贴士,来喽!
1 .数据仓库介绍
专业定义
o英文名称是Data Warehouse,可以缩写为DW。
o是企业的各个层面的决策过程,是提供各种数据支持类型的战略集合。
o这是为分析报告和决策支持而创建的单个数据存储。
o指导需要业务智能的企业改进、监控业务流程、成本、质量和管理。
通俗的解释
o要分析的存储系统(数据要分析的存储系统)
o面向主题的“Subject Oriented”、集成的“Integrate”、不可修改的“Non-Volatile”、反映历史变化的“Time Variant”数据集合,用于数据分析和决策支持。
面向主题:数据仓库中的数据由特定主题域组织。
整合:在系统中处理现有的分布式数据库数据,以消除组织源数据的不一致性。
不可变更:表示资料进入资料仓储后,需要定期载入、重新整理,且不会变更。
反映历史变化:通过这些信息,定量分析和预测企业的发展历史和未来趋势。
数据仓库与数据库的比较分析
主要联系人
两者都是用于存储数据的,即数据的存储介质。
数据仓库也是数据库,是数据库的派生性和扩展性应用。
数据库仓库和数据库之间有数据交换。 也就是说,你里面有我,我里面有你。
数据库中的在线数据将推送到脱机数据仓库进行分析处理
在数据仓库中经过分析处理的结果数据也通常推送到关系数据库中,对前台应用程序的可视化表示非常有用。
数据仓库的出现并不取代数据库,当前的大多数数据仓库都是在关系数据库管理系统中管理的。 也就是说,数据库、数据仓库是互补的,各有千秋。
主要区别
数据库是面向事务的设计,数据仓库是面向主题的设计。
数据库一般存储在线交易数据,实时性强的存储空间有限,在数据仓库中一般存储历史数据,实时性弱但存储空间庞大。
数据库设计是为了尽可能避免冗馀,而数据仓库是为了实施冗馀而设计的。
数据库经设计以收集数据,即具有强的实时吞吐量和弱的实时吞吐量,而数据仓库经设计以分析数据,即具有强的吞吐量和弱的实时吞吐量。
Hive背景
背景
o想要增大数据的不仅是程序员,程序员以外需要使用大数据的方便方法。
o程序员也分为369等,总之越简单易用,程序员越需要降低数据处理的成本和难易度。
基于hadoop的数据仓库需求广泛,需要提供专业、完整的解决方案。
传统数据仓库(如oracle、sqlserver、sybase和Teradata )完全支持SQL标准,为hadoop数据仓库提供了实现路由。
oFacebook的强大业务需求和商业化
定义
oHive是构建在Hadoop上的数据仓库基础架构和解决方案
o体系结构:立即可用,并支持灵活的参数和计算引擎更改
角色
o提出由数据仓库构建的完整解决方案
意思
基于ohadoop平台解决了企业数据仓库构建的核心技术问题,证明了Hadoop平台的强大性。
进一步降低了Hadoop使用的准入阈值
三. Hive在Hadoop生态圈中占有地位
Hive的发展
版本的发展
就业前景
大型数据公司最适合数据仓库的解决方案
数据仓库的应用程序开发、数据分析和数据挖掘中最常用的工具之一。
大型数据技术的应用是最简单直接的入口
市场需求量极大,容易就业。