蓝盟IT小贴士,来喽!
数据湖概念的提倡是2010年奔腾浩的创始人兼CTO詹姆斯迪克森(James Dixon )在纽约的Hadoop World大会上提倡的,是当时在大数据界广泛使用的开源框架Hadoop的第一个
近年来,随着大数据、云计算等技术的发展和成熟,数据湖将再次被人们所提升,在原始数据分析、非结构化数据分析中的应用也越来越多,数据湖正向着企业的实用化发展。
Wikipedia对数数据湖的定义:数据湖是以原始形式(通常是对象块或文件)存储数据的系统或存储库。 数据湖是所有企业数据的单一存储,通常用于报告、可视化、高级分析、机器学习等任务。 数据湖可以包含来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON )、非结构化数据(电子邮件、文档、pdf )、二进制数据(图像、音频、视频)

从体系结构上看,数据湖的主要特征是:
数据访问:数据湖提供对各种类型的数据的访问,包括数据库中的表、各种格式的文件、数据流、使用ETL工具转换的数据和使用API检索的数据,并且自动生成元数据信息。
数据存储—存储在数据湖中的数据量大,来源多,以原始格式存储,与数据仓库的结构化存储方式不同,数据湖以自然格式存储数据。
数据处理:支持数据验证、清洗、聚合、权限管理、数据安全性等。
数据应用: BI、报告分析、可视化分析、高级分析,以及机器学习。
数据湖本质上是一种先进的企业数据架构。
文/上海蓝盟 IT外包专家