蓝盟IT外包,为什么所有机器学习模式的90%没有投入生产

发布者:上海IT外包来源:http://www.lanmon.net点击数:1458

蓝盟IT小贴士,来喽!
时代不确定,必须让顾客体验越来越无缝和沉浸其中,不减轻公司的压力。 因此,可以理解他们为开发机器学习模式投资了几十亿美元来改善他们的产品。
但是有一个问题。 公司不仅希望能为数据科学家和机器学习工程师投入资金,而且希望魔法能实现。
数据说明了一切。 根据VentureBeat的报告,约90%的机器学习模型没有投入生产。 换句话说,实际上只有十分之一的数据科学家在工作日能给公司带来有用的东西。
十分之九的技术负责人认为AI是下一次技术革命的核心,但AI的采用和引进依然有增长的馀地。 另外,数据科学家也不应该受到谴责。
数据科学家的工作市场很好。 公司正在招聘,他们也计划支付高薪。
当然,经理和企业领袖希望这些数据科学家能给他们带来很多价值。 现在他们还不容易实现它。
GAP数据和分析高级副总裁Chris  Chapo说:“我应该做的是把钱投入某个问题或投入技术,有时认为成功来自另一端。 '
为了让数据科学家发挥出色的作用,领导者不仅要向正确的方向引导资源,还必须知道机器学习模式的全部含义。 一个可能的解决办法是领导自己接受数据科学入门培训,让他们在公司实践这些知识。
可访问的数据不足。
公司在数据收集方面也很好。 但是,许多企业非常孤立。 这意味着各部门有自己的数据收集方法、优先格式、保存数据的位置、安全和隐私优先级。
另一方面,数据科学家通常需要来自多个部门的数据。 岛型存储使数据的清理和处理变得更困难。 此外,许多数据科学家抱怨连必要的数据都得不到。 但是,如果没有必要的数据,该如何训练模型?
孤立公司的结构和无法访问的数据可能过去可以管理。 但是,在以惊人的速度进行技术改造的时代,企业需要加强,在整个过程中构建统一的数据结构。
IT、数据科学与工程的背离
如果公司的目标是减少孤岛,就意味着各部门之间需要更多的交流和目标调整。
许多公司在IT和数据科学部门之间存在根本的差距。 IT部门倾向于优先考虑使事情正常运转和稳定。 另一方面,数据科学家喜欢尝试和破坏事物。 这关系不到有效的交流。另外,工程技术不一定对数据科学家很重要。 这是个问题。 因为工程师不一定理解数据科学家设想的所有细节,或者交流不顺利,所以有可能用不同的方法实施事情。 因此,正如StackOverflow指出的那样,能引进模型的数据科学家在竞争模型中具有竞争优势。
并不意味着只要模型在小环境中运行良好,就可以在任何地方运行。
另一方面,用于处理更大数据集的硬件和云存储空间可能不可用。 另外,机器学习模型的模块化在大范围内不一定与小规模相同。
最后,数据源可能不容易或不可能。 如上所述,这可能是公司筒仓结构造成的,也可能是获取更多数据方面的其他课题造成的。
这是统一组织间数据结构和鼓励不同部门之间交流的另一个理由。
努力加在一起
在引进机器学习模式的漫长道路上,四分之一以上的公司面临着重复的工作。
例如,软件工程师可能会尝试执行数据科学家告诉我们的操作。 后者可能会继续自己工作。
这不仅仅是浪费时间和资源。 如果不知道使用哪个版本的代码,或者如果相关人员不知道发生错误时应该向谁求助,也可能会引起其他混乱。
数据科学家有可以实施自己的模型的优点,但他们必须与工程师明确交流谁完成的工作。 这样他们就可以节省公司的时间和资源。
行政官并不总是买账
技术负责人相信整个AI的力量,但这并不意味着他们相信所有的想法。 正如Algorithmia报告的那样,三分之一的企业高管部署统计数据不好是因为缺乏高度支持。
数据科学家依然被认为是书呆子,缺乏商业意识。 这使得数据科学家加强业务技能,在可能的情况下寻求与高级管理层的对话变得尤为重要。
当然,这并不意味着所有的数据科学家突然都需要MBA。 但是,有些从课堂和业务经验中获得的重要经验提供长期服务。
缺乏对异国语言和框架的支持
机器学习模式还处于初期阶段,因此根据语言和框架的不同有很大的差异。
有些管线以Python开始,以r继续,以Julia结束。 其他人走别的路或完全使用其他语言。 每个语言都有自己的库和依赖关系集,因此很难快速跟踪项目。

有些管线可能利用Docker和Kubernetes的容器化,也可能不利用。 有些管线部署特定的API,但不部署其他管线。 这样的例子不胜枚举。

文/上海蓝盟  IT外包专家

IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部