2021年6月,北京智源研究院发布悟道2.0,参数规模达到1.75万亿,是GPT-3的10倍,超过谷歌交换机1.6万亿参数记录。
《封神榜》
2021年11月,在深圳IDEA大会上,粤港澳大湾区域数字经济研究院(简称“IDEA”)理事长沈向洋正式发布,开启“封神榜”大模型开源计划,覆盖5个系列亿级自然语言训练大模型但请注意,在某些情况下,大数据并不合适,“小数据”才是更好的解决方案。
1 .未来AI将从大数据转移到小数据
行业在大数据和大模型方面取得了巨大成就,但这种规模化做法不适用于数据集不足的新兴和传统行业。
在传统行业中,基于公开数据的预训练大模式几乎没有用。
“海量的检索数据、经济数据对检测零件缺陷没有帮助,对医疗记录也没有太大帮助。 ”吴恩达教授说。
更难的是,与能够获取大量用户数据的互联网公司不同,传统的公司无法收集大量的特定数据来支持AI培训。
例如,在汽车制造业中,精益6-sigma管理技术的广泛应用保证了大多数零部件制造商和一级供应商每百万批次最多会出现4个不合格产品。 因此,制造商缺乏不合格产品的样本数据,难以训练用于性能良好的产品质量检测的视觉检测模型。
根据最近的MAPI调查,58%的研究对象认为部署AI解决方案最重要的挑战是缺乏数据源。
正如吴恩达教授所说:“我认为过去十年来,AI最大的转变是深度学习,接下来的十年将转向以数据为中心。 随着神经网络体系结构的成熟,对于许多实际应用来说,瓶颈在于“如何获取和开发所需的数据”。
各国数据和隐私安全法规纷纷落地,AI技术监管收紧,AI大数据红利期一去不复返。
根据Gartner的报告,到2025年,70%的组织将重点从大数据转移到小数据和通用数据,为分析提供更多上下文——,被迫减少AI的数据需求。
但这并不意味着AI的发展将受到阻碍。 相反,在小数据时代,AI也有很大的潜力。
吴恩达教授认为,基于融合式学习、增强型学习、知识转移等方法,小数据也能发挥巨大作用,未来AI的趋势之一是从大数据向小数据的转移。2 .小数据如何驱动AI?
需要注意的是,小数据的“小”不仅要求数据量小,而且要求高质量的数据。 这一点特别重要。 小数据是使用符合需要的数据类型构建模型、生成业务洞察和实现自动化决策。
经常看到对AI期望过高,只需收集几张图像数据,就期待高质量模型的人。 在实际部署中,需要找到最适合模型构建的部分数据,并输出正确的内容。
对此,吴恩达教授举例说明,训练有素的机器学习系统在大多数数据集上运行良好,但只在数据的子集上出现偏差。 此时,为了提高其子集的性能,很难改变整个神经网络架构。 但是,如果只能设计数据的子集,就可以更清楚地解决这个问题。
例如,如果背景中有汽车噪音,有语音识别系统会导致性能下降。 了解了这一点,所有工作都可以在汽车噪音的背景下收集更多的数据,而不是收集更多的数据。 那样处理的话,非常昂贵而且很花时间。
例如,智能手机有很多不同类型的缺陷。 可能有划痕、凹陷、凹陷、材料变色或其他类型的缺陷。 如果训练后的模型在检测到缺陷时总体上是成功的,但在凹坑中是不成功的,则合成数据的生成可以更清楚地解决这个问题,并且只为凹坑类型生成更多的数据。
事实上,小数据并不是一个全新的课题,在机器学习领域,小数据的处理方法正在增加。
样本学习少
少样本学习技术,为机器学习模型提供少量的训练数据,适用于模型完全监控学习状态下训练数据不足的情况。
少样本学习技术经常应用于计算机视觉领域。 在计算机视觉中,模型可能不需要很多例子来识别对象。 例如,有了解锁智能手机的人脸识别算法,你就可以打开手机,而不用成千上万张本人的照片。
知识地图
知识图属于二次数据集。 因为知识图谱是通过筛选原始大数据形成的。 知识图具有定义的含义,并由一系列描述特定域的数据点或标签组成。
例如,一个知识图由一个著名女演员名字的数据点组成,工作过的女演员之间可能用线(或边)连接在一起。 知识地图是一个非常有用的工具,它以高度可解释、可重用的方式组织知识。
迁移学习
要将一个机器学习模型作为另一个模型的训练起点,使该模型能够完成相关任务,需要迁移学习技术。本质上,是将一种模式的知识转移到另一种模式。 以原始模型为起点,使用其他数据进一步训练模型,培养模型处理新任务的能力。 如果新任务不需要原始模型的某些组件,也可以将其删除。
迁移学习技术在自然语言处理和计算机视觉等需要大量计算能力和数据的领域尤为有效。 应用迁移学习技术可以减少任务的工作量和所需时间。
自我监督学习
自我监控学习的原理是让模型从现有数据中收集监控信号。 模型使用现有数据来预测未观测到或隐藏的数据。
例如,在自然语言处理中,数据科学家可能会在模型中输入缺少单词的句子,并让模型预测缺少单词。 从隐藏的单词中得到足够的背景线索后,模型就会学习识别句子中隐藏的单词。
合成数据
如果特定数据集有缺失,无法填充现有数据,则可以使用合成数据。
常见的例子是脸部识别模型。 人脸识别模型需要包含人类所有肤色的人脸图像数据,但存在较暗的人脸照片少于较亮的人脸照片数据的问题。 数据科学家可以手动创建暗人的脸部数据,实现其代表性的平等性,而不是建立难以识别暗人脸部的模型。
但是,机器学习专家需要在现实世界中更全面地测试这些模型,并在计算机生成的数据集不足时添加额外的培训数据。
3 .小数据的巨大潜力
目前,小数据的潜力受到业界的重视。
2021年9月,美国网络安全&; 新兴技术局(CSET )发布的《小数据人工智能的巨大潜力》报告显示,长期被忽视的小型数据(Small Data )人工智能潜力不可估量!
一是缩小大小实体之间的AI能力差异。
由于各组织收集、存储和处理数据的能力差异很大,大型科技公司等AI的“有钱人”和“穷人”之间存在差距。 利用小数据构建AI系统,可以大大降低中小企业的AI准入壁垒,减少传统企业项目的研发时间和成本,成为数万个商业项目的重要突破口。
发展。
文/上海蓝盟 IT外包专家