蓝盟IT外包,读文章实时计算大数据

发布者:上海IT外包来源:http://www.lanmon.net点击数:1153

蓝盟IT小贴士,来喽!
一、实时计算
实时计算一般针对大量数据进行,要求是秒级。 在大数据开始之初,Hadoop并未提供实时计算解决方案。 之后,产生了Storm、SparkStreaming、Flink等实时计算框架。 随着Kafka、ES的兴起,实时计算领域的技术越来越完善,随着物联网、机器学习等技术的普及,实时流媒体计算将在这些领域得到充分的应用。
实时计算的三个特点:
无限数据:无限数据是指不断增加的、基本上无限的数据集。 这些通常称为“流数据”,是相对有限的数据集。
无界数据处理:一种可通过处理引擎重复处理上面无限数据的持久数据处理模式,可以突破有限数据处理引擎的瓶颈。
低延迟:没有明确定义延迟是多少。 但是,我们知道数据的价值随着时间的推移而降低,时效性是一个需要持续解决的问题。
目前,大数据APP爆炸式普及的领域,如推荐系统在实践之初,由于技术限制,有时会花1分钟、1小时或更长的时间向用户推荐,这远远不能满足需求,不是离线批处理
二、实时计算应用场景
随着实时技术的发展成熟,实时计算的应用越来越广泛,下面列举一些常见的实时计算应用。
1 .实时智能推荐
智能推荐根据用户的历史购买和浏览行为,通过推荐算法训练模型,预测用户将来可能购买的物品和喜欢的信息。 对个人来说,推荐系统起到信息过滤的作用,对Web/App服务端来说,推荐系统起到满足用户个性化需求,提高用户满意度的作用。 推荐系统本身也在迅速发展,不仅算法完备,对延迟的要求也变得严格实时化。 利用Flink流计算,用户构建更加实时的智能推荐系统,实时计算用户行为指标,实时更新模型,实时预测用户指标,将预测到的信息推送至Web/App端,从而实现用户行为指标的更新。
2 .实时欺诈检测
在金融领域的业务中,信用卡诈骗、信用卡申请诈骗等多种类型的诈骗行为频繁发生,但如何确保用户和公司资金的安全性是近年来许多金融公司和银行面临的课题。 随着不法分子诈骗手段不断升级,传统的反诈骗手段已经不足以解决目前面临的问题。 过去,根据交易数据计算用户的行为指标,根据规则判断疑似欺诈行为的用户,进行案件调查处理需要几个小时,但在这种情况下,资金会被转移到不法分子身上,可能会给企业和用户带来巨大的经济损失。 使用Flink流媒体技术,可以在毫秒内完成欺诈行为判断指标的计算,实时拦截交易流程,避免因处理不及时而造成的经济损失。3 .舆论分析
一些顾客需要进行舆论分析,所有数据需要保管几年,舆论数据每天的数据量可能超过百万,年数据量可能达到数十亿的数据。 而且爬虫爬上来的数据是舆论,用大数据技术进行分词后得到的大概是大网民的评论,顾客要求调查舆论,进行全文检索,将响应时间控制在秒级。 爬虫将数据爬上大数据平台的Kafka,在里面进行Flink流处理,去除噪声进行语音分析,写入ElasticSearch。 大数据的特征之一是多个数据源,大数据平台可以根据场景选择不同的数据源。
为什么Lambda体系结构要分两条线计算?
如果整个系统只有一个批处理级别,则用户必须等待很长时间才能获得计算结果,并且通常会有几个小时的延迟。 电子商务的数据分析部门只能看到前一天的统计分析结果,不能得到现在的结果。 这对实时决策来说有很大的时间差距,管理者很可能会错过最佳决策时机。
Lambda架构是以前的架构方式,以前的流处理不如现在成熟,在正确性、扩展性、容错性方面,流处理层不能直接代替批处理层,只能提供与用户近似的结果,是一致的因此,在Lambda架构中,发生了批处理和流处理混合的现象。
在Lambda体系结构中,每一层都有各自的作用。
1 .批处理级存储管理主数据集(不变数据集)和预先批处理计算的视图:
批处理层使用能够处理大量数据的分布式处理系统预先计算结果。 通过处理现有的所有历史数据,实现数据的准确性。 这意味着可以根据完整的数据集重新计算,然后更正错误并更新现有的数据视图。 输出通常存储在只读数据库中,更新将完全替换现有的预先计算的视图。
2 .流处理层实时处理新的大数据:
流处理层通过提供最新数据的实时视图来最小化延迟。 由流处理层生成的数据视图可能不如批处理层最终生成的视图准确,但在收到数据后可以立即使用。 在批处理级别处理相同的数据后,可以替换速度级别的数据。
Lambda体系结构有缺点吗?
Lambda架构经过多年的发展,其优点稳定,实时计算部分的计算成本可控,批处理可以在晚上的时间整体进行批处理计算。 这样划分实时计算和离线计算高峰,支撑着数据行业的早期发展,但也存在致命的缺点,在大数据3.0时代越来越不能满足数据分析业务的需求。 缺点如下。使用两个大数据处理引擎:维护两个复杂的分布式系统非常昂贵。
批量计算不能在计算窗口内进行:在IOT时代,数据量的水平越来越大,夜间只有四五个小时的时间窗口,无法完成白天20小时以上的累计数据,保证早上上班前按时提交数据
每次数据源变化都要重新开发,开发周期长:每次数据源格式变化,业务逻辑变化都需要对ETL和Streaming进行开发修改,整体开发周期长,业务应对充分。
Lambda体系结构的根本原因是同时维护两个系统体系结构:批处理层和速度层。 我们知道,向体系结构中添加批处理层是因为从批处理层中得到的结果精度高,而添加速度层是因为处理大数据时的延迟低。
文/上海蓝盟  IT外包专家
IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部