阿里发布千亿参数规模AI模型，可设计30多种物品高清图像

WechatIMG72_meitu_1

【猎云网北京】3月2日报道

3月2日，阿里巴巴与清华大学联合发布业界最大的中文多模态预训练AI模型M6，该模型参数规模超千亿，同时具备文本、图像的理解和生成能力，图像设计效率超越人类，可应用于产品设计、信息检索、机器人对话、文学创作等领域。

阿里M6模型根据文本内容，自动设计特定风格图片

预训练语言模型是让AI具备认知能力的关键技术，它突破了传统深度学习方法的瓶颈，是一种新型AI训练思路，即首先自动学习大量语言文字和图像数据，记忆和理解人类丰富的先验知识，再进一步学习专业领域信息，从而让AI同时掌握常识和专业知识。目前，谷歌、微软和 Facebook等企业已投入该技术的研发。

此次发布的M6模型参数规模达到1000亿，是多模态预训练领域史上最大的模型，其理解和生成能力超越传统AI。以图像生成为例，模型可设计包括服饰、鞋类、家具、首饰、书籍等在内的30多个物品类别的图像，最短一分钟即可完成作品的创作，效率超越普通设计师。

阿里M6模型自动生成相关图像效果

M6的突破源自多项底层技术创新。阿里巴巴研究团队基于自研Whale分布式框架，将参数规模扩展到千亿的同时，利用大规模数据并行和模型并行，训练速度提升10倍以上，仅需1-2天即可完成上亿数据的预训练。此外，M6模型首次将多模态预训练模型应用到基于文本的图像生成任务，结合向量量化生成对抗网络学习文本与图像编码共同建模的任务，能够生成清晰度高且细节丰富的图像。

阿里巴巴达摩院智能计算实验室资深算法专家杨红霞表示：“多模态预训练是下一代人工智能的基础，M6模型实现了训练效率和生成精度等多项突破，是当前众多中文多模态下游任务最优模型。”

作为国内最早投入认知智能研究的科技公司之一，阿里巴巴已有30多项认知智能领域研究成果被国际顶级会议收录；据介绍，研究团队还将研发更高规模的万亿参数多模态预训练模型，进一步突破算力及预训练模型的极限，最终实现通用领域的高质量泛内容生成。