您可以看到,在数据存储时代,只要有数据,就几乎需要进行统计分析。如果数据量很大,我们会考虑使用Hadoop的大数据技术,这也是Hadoop在此期间发展得特别快的原因之一。技术的发展也促进了技术的应用,也为数据挖掘时代的大数据的下一次应用奠定了基础。
大数据应用的历史:从搜索引擎到人工智能
我们对大数据技术的使用也经历了一个发展过程。从一开始,谷歌开始在搜索引擎中使用大数据技术,而今天,几种无处不在的人工智能应用,随着大数据技术的发展,大数据应用也已经过去了。
当谷歌首次在大数据中发布时间文件时,或许它并没有想到它已经开启了大数据的新时代。今天,大数据和人工智能方面的成就与全世界数百万大数据专业人士(包括您和我)的努力密不可分。
历史可以由天才打开,但它仍然是由人创造的。作为大数据时代的参与者,我们正在创造历史。
它是大数据应用程序的搜索引擎。
作为全球最大的搜索引擎公司,谷歌也被公认为大数据的创造者。它存储了世界上几乎所有可访问的网页,数量可以超过一万亿,而且所有网页都需要存储数万个磁盘。为了存储这些文件,谷歌开发了GFS(谷歌的文件系统),它管理数千台服务器上的数万个磁盘,然后将它们存储为文件系统。
您可能会觉得,如果您只是存储所有网页,似乎没有什么太大。这是对的,但Google对这些网页的访问是建立一个搜索引擎,需要对所有文件中的单词进行单词频率统计,然后根据PageRank算法计算页面排名。同时,谷歌需要计算这些成千上万张光盘上的文件,听起来不错。当然,基于这些需求,Google开发了大数据计算框架MapReduce。事实上,在谷歌之前,世界上最着名的搜索引擎是雅虎。然而,凭借自己的大数据技术和PageRank算法,Google在搜索引擎的搜索体验方面取得了质的飞跃。人们已离开雅虎并改为谷歌。然后,当Google发布自己的GFS和MapReduce文档时,雅虎应该是第一家专注于这些文档的公司。
Doug Cutting根据Google文档制作了Hadoop,因此雅虎挖掘出了Doug Cutting并全职开发了Hadoop。然而,雅虎和Doug Cutting的蜜月并没有持续多久。 Doug Cutting对雅虎的内部斗争感到不安,并转投Cloudera,一家专门从事Hadoop营销的公司,而雅虎投资Cloudera的竞争对手HortonWorks。
像最好的球员一样,最好的公司拥有优雅的审美。你可以在路上看到谷歌,从搜索引擎、Gmail、、Android、地图无需驱动程序,每一步都将人类技术的极限提升到更高的水平。即使是贫穷的公司甚至已经获得了显赫的地位,但一旦他们失去了美感和做事的步伐,在这个快速变化的时代,陨落的速度就快于流星。
大数据应用数据仓库的时代。
当Google的文章首次发布时,它吸引了雅虎等搜索引擎公司以及Doug Cutting等开源搜索引擎开发商。其他公司只吃人。但是当Facebook推出Hive时,对气味敏感的技术公司并不冷静,并开始意识到大数据时代真的开放了。
一旦我们对数据和统计数据进行了分析,我们就将自己局限于数据库,并在数据库的计算机环境中对数据库中的数据表进行统计分析。由于数据量和计算能力,我们只能计算和分析最重要的数据。这里最重要的数据是指与给予老板的财务数据相关的数据。Hive可以在Hadoo上执行SQL操作以进行统计和数据分析。换句话说,我们可以以更低的价格获得比以往更多的数据存储和计算能力。我们可以收集来自于数据库的计算和分析执行日志应用数据、、数据,获得无法获得之前的数据结果,以及数据仓库公司将成倍扩大。
不仅老板,但该公司的所有普通员工,工程师、到、产品经理可以提供需求分析,并获得你想知道的店大数据,只要你有权利的数据分析结果访问数据。
您可以看到,在数据存储时代,只要有数据,就几乎需要进行统计分析。如果数据量很大,我们会考虑使用Hadoop的大数据技术,这也是Hadoop在此期间发展得特别快的原因之一。技术的发展也促进了技术的应用,也为数据挖掘时代的大数据的下一次应用奠定了基础。
大数据应用程序的数据挖掘时代。
一旦大数据进入更多公司,我们将对大数据提出更多期望。除数据统计外,我们还希望发现更多数据和大数据的价值将进入数据挖掘的时代。
为了解释一个真实的案例,贸易商长期以来通过数据发现,购买尿布的人经常购买啤酒,因此聪明的营销人员将这两种产品放在一起以促进销售。啤酒和尿布之间的关系可以有多种解释,但如果不是通过数据挖掘,你可能会打破头脑,无法想到它们之间的关系。
在商业环境中,解释这种关系并不重要。重要的是,只要它们之间存在关联,就可以进行关联分析。最终目标是让用户尽可能多地查看他们想要购买的产品。
除了商品和商品之间的关系,您还可以使用人与人之间的关系来推荐商品。如果两个人购买的许多商品相似甚至相等,无论彼此之间有多远,他们都必须有一定的关系。例如,可能存在类似的教育背景。、经济收入、利益。根据这种关系,可以进行关联推荐,以便他们可以看到他们感兴趣的产品。
此外,大数据也可以提取每个人的不同特点,并把它们放在几个标签:、 90生活在一线城市的收入每月后、、 120万的房子......这些标签的肖像用户,只要有足够的标签,你就可以完全代表一个人,即使是离你最近的人也更加完整的是、。除了营销之外,数据挖掘还可以用于挖掘人际关系。你听说过“六度分离理论”吗?他认为,世界上两个不认识对方的人只需要几个中间人来连接他们。这个理论在美国的结果是你可以通过六个步骤接触六个身份不明的美国人。基于这一理论,Facebook已经从超过十亿的用户研究数据,试图找到两个陌生人之间的数字,答案是惊人的3.57。正如你所看到的,各种社会性软件的记录我们的朋友,并通过关系挖掘地图的关系,可以代表世界上几乎整个人类网络。
现代生活是从互联网上几乎形影不离,和各种应用程序在任何时候,被分析和大数据集群的底部连续提取收集数据。这些分析和挖掘给我们带来了好处或恐惧,并依赖于大数据专业人员的努力。但可以肯定的是,无论最终结果如何,这个过程只会加速而且不会停止,你和我只能投资它。
大数据应用的机器学习时代
我们已经发现一段时间内数据中存在法律。该法律规定遵循所有数据。过去发生的事情遵循这一法律,将来会发生的事情遵循这一法律。一旦找到这个定律,就可以根据这个定律预测正在发生的事情。
在过去,我们通过计算容量数据采集、、有限,你只能得到数据样本的一小部分,你不能得到全球法律、、的全部细节
现在,通过大数据,您可以收集所有历史数据,计算规则并预测正在发生的事情。
这是机器学习。
在故事中,存储了人类游戏Go的游戏数据,并且可以为每种类型的磁盘获得更大的增益。获得此统计法后,您可以使用此规则与人下棋。计算的每一步计算您将获得更大利润的位置。因此,我们得到一个下棋的机器人。这是感觉的前两年。具有压倒性优势的AlphaGo赢得了人类最好的球员。让我举一个更贴近我们生活的例子。从人们的聊天中收集对话数据并记录每个对话的上下文。如果最后一句话是询问当天的进展情况,那么处理下一句话的方法可以通过机器学习来讲述。在将来,如果有人问他们今天是怎样的,他们可以自动回答下一句话,所以我们将得到一个会聊天的机器人。 Siri、 Tmall Elf、小爱情伴侣,这个语音聊天机器人已经充满了机器学习时代的人们。
人类活动产生的数据可以通过机器学习进行统计学习,机器学习可以模拟人类行为并使机器显示人类的特定智能。这是AI人工智能。
现在我们对人工智能有一些非理性的态度。有些人认为人工智能将越来越强大,并将在未来统治人类。其实,稍懂人工智能的原理,发现这仅仅是通过智能显著统计规律计算的只是大数据,性能则是无法理解这样做的重要性,并且是源头人类智慧根据目前人工智能的发展,人类智慧永远无法克服,人类治理更是不可能。
搜索引擎对机器学习的大数据,思想的发展实际上是在同一条线上,就是在数据中找到规则并将它们用于我们。这么多人称黄金数据,大数据应用具有商业价值的真钱,挖掘出这种内在的黄金宝藏知识。