蓝盟IT小贴士,来喽!
IT人员和数据专业人员需要建立物理基础架构,以便在不同的源和多个APP应用程序之间移动数据。 它还必须满足性能、可扩展性、及时性、安全性和数据治理要求。 此外,企业可能会迅速失控,因此必须提前考虑部署成本。
也许最重要的是,企业首先需要弄清楚大数据是如何以及为什么对他们的业务很重要的。
“大数据项目面临的最大挑战之一是如何更好地应用所获得的知识,”ERP软件提供商VAI的业务智能经理Bill Szybillo说。
虽然许多APP应用程序和系统都在捕获数据,但企业往往很难理解有价值的数据,无法应用这一观点——以有影响力的方式。
从更广泛的角度看,以下建议有助于企业了解这十大数据挑战以及如何解决这些挑战。
1 .管理大量数据
在该定义中,大数据通常包含存储在各种系统和平台上的大量数据。 Szybillo表示,企业面临的第一个挑战是将从CRM、ERP系统和其他数据源中提取的大型数据集整合到集成、可管理的大数据体系结构中。
他说,当他知道正在收集的数据时,可以通过进行较小的调整来更容易地缩小见解。 要实现这一点,请建立允许逐步更改的基础架构。 如果试图做出重大变化,最终可能会出现新问题。
2 .发现和修复数据质量问题
如果数据质量问题蔓延到大数据系统,基于大数据构建的分析算法和人工智能APP应用可能会导致不良后果。 如果数据管理和分析团队尝试部署更多不同类型的数据,这些问题可能会变得更加严重,并且难以审计。 Bundler在网上市场寻找在线购物助手,帮助人们购买产品并安排发货。 扩大到500,000名顾客时,经历了这样的问题。 该公司的主要增长动力是利用大数据提供高度定制的体验、识别追加销售机会和监控新趋势。 有效的数据质量管理是一个重要问题。
bundlerceo Pavel kovalenko说:“我们需要不断监测和修复数据质量问题。” 他说重复条目和拼写错误很常见,特别是如果数据来自不同的源。 为了确保他们收集的数据质量,Kovalenko的团队创建了智能数据分类器。 该分类器将重复数据与较小的数据差异相匹配,并报告拼写错误的可能性。 这有助于提高组对通过分析数据生成的业务见解的准确性。3 .应对数据整合和准备的复杂性
开源分析平台供应商Knime首席数据科学家Rosaria Silipo表示,大数据平台可以解决大量不同类型数据的收集和存储问题,并快速获取分析所需的数据。 但是,数据收集过程仍然非常困难。
企业收集的数据存储的完整性取决于持续更新。 这需要保持对各种数据源的访问,并拥有专用的大数据集成战略。
一些公司将数据湖用作一个全面的存储库,以存储从不同源收集的大型数据集,而不考虑如何整合各种数据。 例如,不同的业务领域都会生成对联合分析很重要的数据,但这些数据通常具有不同的基本含义,企业需要消除歧义。 Silipo警告我们暂时不要整合项目。 这可能包括许多返工。 为了优化大型数据项的投资回报,通常建议制定支持数据整合的战略方法。
4 .高效经济地扩展大数据系统
如果企业没有使用大数据的策略,可能会浪费大量资金来存储大数据。 技术和服务提供商ZL Tech的企业解决方案负责人George Kobakhidze表示,企业需要了解大数据分析始于数据捕获阶段。 管理企业数据存储还需要一致的保留策略来循环处置旧信息。 特别是现在,COVID-19流行前的数据在现在的市场上往往不准确。
云管理平台供应商CloudCheckr产品副总裁Travis Rehl表示,数据管理团队必须在部署大数据系统之前规划数据类型、型号和用途。 但是,这并不容易。
他说:“我们通常从数据模型开始扩展,但很快就会意识到该模型不适合新的数据点,突然需要解决技术债务。 ”。
具有适当数据结构的公共数据湖可以更简单、高效、经济地重用数据。 例如,Parquet文件通常提供比数据湖CSV转储更好的性能成本比。
5 .大数据技术评价与选择
数据管理团队有各种大数据技术,而且往往有各种工具的功能重叠。
NoSQL数据库公司Aerospike的首席战略官Lenley Hensarling表示,当前和未来来自流源和批处理源的数据,包括大型机、云APP应用程序和第三方数据服务例如,企业流媒体平台(如Apache Kafka、Apache Pulsar、AWS Kinesis和谷歌pub/sub )可以是云计算、本地和混合云然后,团队需要评估复杂的数据准备能力,并向人工智能、机器学习和其他高级分析系统提供数据。 规划数据的处理地点也很重要。 如果存在延迟问题,团队应考虑如何在边缘服务器上运行分析和AI模型,以及如何轻松更新模型。 企业必须在部署和管理本地、云或边缘运行的设备和APP应用程序的成本之间平衡这些功能。
6 .生成业务见解
数据团队倾向于关注大数据技术而不是结果。 Silipo通常发现他们不太关心如何处理数据。
从企业中的大数据APP应用程序生成有价值的业务见解需要考虑多种方案,包括基于KPI的报告、确定有用的预测和提出不同类型的建议。
这需要具备机器学习专业知识的业务分析专家、统计学家、数据科学家的协助。 她说,这些团队与大数据工程团队合作,可以提高构建大数据环境的投资回报。
文/上海蓝盟 IT外包专家