超强语言模型参数数量提升3倍
文|陈根
全球有数亿用户依靠基于人工智能的搜索、翻译以及语音识别服务,这推动了对更庞大人工智能计算能力的需求。此前,领先的图像识别系统需要每秒7000千万亿次浮点运算的计算能力;目前,处理实时语言翻译的研究者需要超过每秒100000千万亿次浮点运算的能力。
在机器学习中,尤其在语言处理领域,参数的数量和复杂程度之间的相关性很高。通常而言,参数越多、系统越复杂,往往功能越强大。因为这样系统在训练过程中会获得更多的训练数据,系统对于语言的理解也会随之更加丰富、细致和准确,甚至可以获得总结书籍以及完整编程写代码的能力。
近日,微软和英伟达宣布了由DeepSpeed和Megatron驱动的Megatron-Turing自然语言模型MT-NLG(Megatron-Turing Natural Language Generation model))。该模型包括5300亿个参数,与现有最大的模型GPT-3相比,参数数量是其3倍,是迄今为止训练的最大和最强的解码语言模型。
训练这样的大型模型需要面对很多挑战,开发人员沿着现有的人工智能轴线也进行了许多创新和突破。例如,通过紧密合作,英伟达和微软将最先进的GPU加速训练基础设施与尖端的分布式学习软件堆栈相融合,实现了前所未有的训练效率;微软与NVIDIA建立了高质量的自然语言训练语料库,其中包含数千亿个标记,并共同开发了训练配方,以提高优化效率和稳定性。
具体来说,该系统由 560 个 DGX A100 服务器组成,每个服务器包含 8 个 A100 GPU。所以 GPU 都使用 NVLink 和 NVSwitch 相互连接,每个 GPU 都能够以每秒 113 万亿次浮点运算的速度运行。
为了训练 MT-NLG,微软和英伟达还专门创建了一个训练数据集,这一数据集主要来自 The Pile,其中包含了来自英语网站的 2700 亿个“令牌”。与所有 AI 模型一样,MG-NLP 必须通过得到一系列示例来获得“训练”,从而学习数据点之间的各种模式,例如语法和句法规则。
在为 MG-NLG 进行基准测试时,虽然 MT-NLG 还没有达到特别准确的程度,但这已经是自然语言处理中的一大突破。
-
连续六周–不断增加的钻机数量使油价下跌
2021-10-15 -
随着美国钻机数量的增加,油价下跌-钻机数量排名前500
2021-10-10 -
尽管钻机数量增加,但油价仍在上涨
2021-10-10 -
钻机数量减少,石油减少
2021-10-08 -
美元走强,钻机数量增加导致油价调整停滞
2021-10-07 -
石油市场不景气,因为钻机数量连续第八周上升
2021-10-06 -
连续第三周钻机数量上升,石油担忧加剧
2021-10-06 -
比较EIA和OPEC的生产数量
2021-10-04 -
单周缓刑后美国石油钻机数量再次下降
2021-10-02 -
Bakken输出继续随钻机数量下降
2021-10-01 -
参与气电市场的虚拟电厂内部优化随机模型
2021-09-29 -
全球钻机数量持续下降
2021-09-28 -
每桶50美元的美国石油钻机数量连续第二周增加
2021-09-27 -
美国石油钻机数量保持稳定,连续8周跌落
2021-09-25 -
全球开放的太阳能绩效模型
2021-09-24