蓝盟IT外包,浅谈网络大数据平台下的数据质量

发布者:上海IT外包来源:http://www.lanmon.net点击数:962

蓝盟IT小贴士吗,来喽!
从源头上看,数据质量问题的原因有很多。 总的来看,主要有业务、技术、管理、基础设施四个方面。
业务端:业务源系统变更(源系统数据库表结构变更、源系统环境变更)、业务端数据输入不规范等
技术方面:数据开发任务中的各种任务流程、参数、配置等错误;
管理方面:缺乏认知层面的质量意识,缺乏有效的数据质量问题处理机制等;
基础设施:物理资源不足、基础设施不稳定等。
数据中心围绕预定义的监控规则、事件中的监控数据生成、事后质量测量评估三部分建立全链路监控。 在数据开发过程中,可以及时发现污染数据,防止污染数据污染下游任务,提高质量监控效率。
如上图所示,数据中心位于大数据平台上,主要为开发阶段的离线开发提供服务。 具体来说,首先在数据质量中心创建监视任务,选择要监视的对象,对监视对象设定表级别和字段级别,从而设定监视规则。 离线开发任务绑定质量监视任务,并为质量监视设置警报。 离线开发配置完成后,可以在数据质量中心查看与表质量评估相关的内容,如查看质量大屏幕、查看质量得分和监控任务执行趋势。 本文将介绍质量规则、质量监控任务、质量结果评价等几个方面。
2数据质量要求和规则的定义
DAMA国际数据管理协会定义了数据质量的维度,包括准确性、完整性、一致性、合理性、参照完整性、及时性、唯一性、有效性、精度、隐私和时效性。 根据业务和行业的不同,对质量的需求也不同。 数据中心提供表级、字段级规则模板以进行质量监控,并支持SQL创建自定义规则和规则模板。
在设置所选监视对象的规则时,可以选择模板规则或自定义规则,如下图所示。 如果选择模板规则,请为要监视的字段选择已配置的规则模板,填写所需范围,并设置所需规则命中行数或规则命中行数的比率。 对于需要监视的表,还可以选择表级规则。 如果现有规则模板不符合要求,则可以访问“自定义规则”功能界面,以便在字段级别编写SQL语句。
文/上海蓝盟 IT外包专家
IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部