蓝盟IT外包,为什么说数据是人工智能的基础

发布者:上海IT外包来源:http://www.lanmon.net点击数:1226

蓝盟IT小贴士,来喽!
什么是数据标记?
虽然大多数数据未标记非结构化数据,但人工智能培训需要计算机可读的结构化数据。 带标签的数据意味着标记或注释目标模型中的数据,以便可以进行培训和预测。 数据注释通常包括数据注释、注释、审阅、分类、转录和处理。 尺寸数据用于突出显示几个特征,根据这些特征进行分类,然后通过模型分析该模式来预测新的目标。
数据在人工智能项目中占了多长时间?
需要丰富的数据来训练机器学习和深度学习模式,并用于部署、训练和调整模式。 训练机器学习和深度学习模式需要大量精心标注的数据。 准备标记原始数据,并将其应用于机器学习模型和其他AI工作流,称为数据标记。 据相关统计,数据整理在AI项目中占用了80%以上的时间。 通常,在一个人工智能项目中,对数据的需求也分为三次左右。 第一次是项目开始的验证阶段,需求数量比较小,需要决定可行性和规则。 第二次项目正式启动,大量数据需要训练模型。 第三次,训练和验证完成后,为了实现预期的目标,要对训练集进行一些不满之处的补充。 下图为人工智能机器学习项目中各任务的时间占有率。
如果没有数据,可以假设在大约一个小时内收集并标记5-10个样本。 如果利用亚马逊的Mechanical  Turk等服务验证整个项目过程,生成100,000个合格样本数据集,则需要约70,000美元。
如果收集到大量数据,可以使用专业的数据注释服务公司进行注释。 在这种情况下,获取100,000个带标签的数据样本可能会花费8,000至80,000美元,具体取决于标记的复杂性。
另外,数据样本的检查和修改和数据样本的生成和标记一样花时间。 根据Dimensional  Research的研究报告,66%的企业在数据集上面临偏差和错误问题。 有些公司采用完整的内部方法(自行加价),有些公司选择外包和内部混合。 第二种常见情况是外包大部分工作,由公司个人负责验证和清理。 外包10万个数据样本的初始成本可能会增加约2500,000美元。除了数据成本外,还有算法人工费、计算力设备成本、项目落地成本。 除了额外成本和一系列功耗成本外,机器学习项目可能会导致公司花费51,750美元到136,750美元(不包括无法确定的额外成本)。 价格的差异主要由数据决定。 这是一个非常乐观的估计。 如果企业位于美国,使用优秀的数据(临时工不这样做),则人才相关费用急剧增加,人工智能机器学习项目的费用超过108,500美元。
这样昂贵的价格有助于解决新的问题或使流程自动化。 决策的个人、小团队和初创企业无法承担。
文/上海蓝盟   IT外包专家
IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部