蓝盟IT外包,EleutherAI推出了200亿参数的GPT级模型。 与GPT-3不同,它是免费公开的

发布者:上海IT外包来源:http://www.lanmon.net点击数:1633


众所周知,自2020年微软和OpenAI就GPT-3源代码的独占访问权达成协议以来,OpenAI不再向社会开放GPT-3的型号代码(GPT-1和GPT-2是开源项目)
出于对科技巨头霸权的“反叛”,成立了由各路研究者、工程师和开发者志愿者组成的计算机科学家协会,打破了微软和开放AI对大规模NLP模式的垄断,取得了良好的成果。
这个协会是电子商务。
以古罗马自由女神Eleutheria的名字,揭示了对巨头的蔑视和反抗。
与1750亿参数的GPT-3相比,GPT-NeoX-20B参数明显小巫见大巫。 但是,EleutherAI为这一成果感到自豪。 为什么?
1 EleutherAI来源
首先介绍EleutherAI的发展历史。
人工智能威胁论是一个由来已久的热门问题。 霍金在《独立报》中这样表达了人工智能的威胁。 “人工智能的短期影响取决于控制它的人,而长期影响取决于它能否控制。 " "
EleutherAI的成立始于2020年7月。 主要发起人是一群据说自学成才的黑客,主要领导者是Connor  Leahy、Leo  Gao和Sid  Black。
当时,微软与开放AI签署了GPT-3访问控制协议。 听到风声,反叛极客们在Discord  (社交媒体平台)上说:“让我们给OpenAI一个教训吧! " "
因此,他们希望基于Discord建立EleutherAI,建立与GPT-3相媲美的机器学习模型。
创始人Connor  Leahy在接受IEEE  Spectrum采访时表示。
“一开始真的是一个有趣的爱好,但是在瘟疫关闭城市期间,我们没能做得更好。 它的魅力很快就变大了。 " "
“我们认为自己是几十年前古典黑客文化的后裔,但我们在新领域出于好奇心和对挑战的热爱试验技术。 " "
Discord服务器目前约有10,000名成员,但只有100或200人左右经常活动,10到20人的团队正在开发新模型。成立以来,EleutherAI的研究小组首先开源了基于GPT-3的含60亿参数的NLP模型GPT-J,2021年3月发布了27亿参数模型GPT-Neo级,可以说增长很快。
今年2月9日,他们又与酷睿网络合作发布了GPT-Neo升级版——GPT-NeoX-20B。 官方代码地址如下,目前可以从The  Eye  on  the  Eye上公开下载。
代码地址: https://mystic.the-eye.eu/public/ai/models/GPT-neox-20b  /
这也是目前最大的可公开访问的预训练通用自回归语言模型。
在发布声明中,Leahy特别标记了“标准语言建模任务的正确性”和“通过HendrycksTest评估测量的按主题组划分的事实知识的零样本正确性”。
2 GPT-NeoX-20B的优势:免费开放
简而言之,GPT-NeoX-20B是一个包含200亿参数、预训练、通用和自回归的大规模语言模型。
如果不知道是什么,请考虑OpenAI的GPT-3。 这是近两年前震惊世界的大规模语言模型,语言能力神通广大。 只需编写计算机代码、写诗、生成难以区分风格的权威语气假新闻,甚至给出标题和一句话,就可以生成文章。 那是因为可以根据很少的输入信息自己“创作”。 另外,创作的东西也可以写成文章(题外话:就像漫威机器人贾维斯一样)
必须承认OpenAI的模型大于EleutherAI,有1750亿个参数(模型内部对信息进行编码的节点或数字)。 参数越多,模型就越“智能”,因为模型会吸收和细分更多的信息。
但是,EleutherAI是世界同类机型中性能最大的机型,可以免费公开获取。
“我们希望更多的安全研究人员能够使用这项技术。 ”Leahy说。
另外,EleutherAI和OpenAI训练大规模模型所需的计算能力不同。
OpenAI在未知数量的Nvidia  V100 Tensor  Core  GPU上训练了GPT-3。 随后,OpenAI合作伙伴微软开发了一个用于大型型号培训的单个系统,具有285000多个CPU核心、10000个GPU和每秒400 Gb的网络连接。这并没有阻止EleutherAI对反GPT-3垄断的承诺。 他们最初使用谷歌提供的硬件作为其TPU研究云计划的一部分,建立了具有60亿个参数的大型语言模型GPT-J。 对于GPT-NeoX-20B,该组得到了CoreWeave的支持,CoreWeave是一家专门用于基于GPU的工作负载的云服务提供商。
OpenAI被称为人工智能非营利组织,但目前其本质是科技公司主导开发的私人模式。
EleutherAI的数学家和人工智能研究者Stella  Biderman对IEEE  Spectrum说:
“这些私人模式限制了我们这些独立科研人员的权限。 如果我们不知道它的工作原理,科学家、伦理学家和整个社会就无法就该如何将这项技术运用到我们的生活中进行必要的对话。 " "
EleutherAI的工作促进了大型语言模型的可描述性、安全性、伦理方面的研究,得到了外界的肯定。
机器学习安全领域的关键人物倪教授在最近的论文中表示:“如果EleutherAI没有完全公开The  Pile数据集及其GPT-Neo系列模型,我们的研究就无法实现。 “Pile数据集是一个825 GB的英语文本语料库,用于培训大型语言模型。


文/蓝盟IT外包

IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部