您的位置:首页 >环保 >

超强语言模型参数数量提升3倍

时间:2021-10-15 20:16:19 来源:

文|陈根

全球有数亿用户依靠基于人工智能的搜索、翻译以及语音识别服务,这推动了对更庞大人工智能计算能力的需求。此前,领先的图像识别系统需要每秒7000千万亿次浮点运算的计算能力;目前,处理实时语言翻译的研究者需要超过每秒100000千万亿次浮点运算的能力。

在机器学习中,尤其在语言处理领域,参数的数量和复杂程度之间的相关性很高。通常而言,参数越多、系统越复杂,往往功能越强大。因为这样系统在训练过程中会获得更多的训练数据,系统对于语言的理解也会随之更加丰富、细致和准确,甚至可以获得总结书籍以及完整编程写代码的能力。

近日,微软和英伟达宣布了由DeepSpeed和Megatron驱动的Megatron-Turing自然语言模型MT-NLG(Megatron-Turing Natural Language Generation model))。该模型包括5300亿个参数,与现有最大的模型GPT-3相比,参数数量是其3倍,是迄今为止训练的最大和最强的解码语言模型。

超强语言模型参数数量提升3倍

训练这样的大型模型需要面对很多挑战,开发人员沿着现有的人工智能轴线也进行了许多创新和突破。例如,通过紧密合作,英伟达和微软将最先进的GPU加速训练基础设施与尖端的分布式学习软件堆栈相融合,实现了前所未有的训练效率;微软与NVIDIA建立了高质量的自然语言训练语料库,其中包含数千亿个标记,并共同开发了训练配方,以提高优化效率和稳定性。

具体来说,该系统由 560 个 DGX A100 服务器组成,每个服务器包含 8 个 A100 GPU。所以 GPU 都使用 NVLink 和 NVSwitch 相互连接,每个 GPU 都能够以每秒 113 万亿次浮点运算的速度运行。

超强语言模型参数数量提升3倍

为了训练 MT-NLG,微软和英伟达还专门创建了一个训练数据集,这一数据集主要来自 The Pile,其中包含了来自英语网站的 2700 亿个“令牌”。与所有 AI 模型一样,MG-NLP 必须通过得到一系列示例来获得“训练”,从而学习数据点之间的各种模式,例如语法和句法规则。

在为 MG-NLG 进行基准测试时,虽然 MT-NLG 还没有达到特别准确的程度,但这已经是自然语言处理中的一大突破。


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。