图源:阿里巴巴

达摩院决定交出家底儿

2022年8月,一场小规模的开发者评测局悄悄展开,评测的对象是一个连中文名都还没有,只有英文代号的新平台。

不到三周的时间,这个没做什么传播的评测,却迅速吸引来了四五十万的浏览量。

这些开发者的“水平”参差不齐,但都被一个事吸引而来:

在这个新上线的平台上,曾经遥不可及或被牢牢锁在黑箱子里的数百个顶尖AI算法模型,全部免费彻底开源了——而且它还是为中文开发者而生的。

你可以只通过几下点击,就直接体验AI模型的应用效果,比如给一段文字生成一个图像,比如把头像换成卡通版本,比如让AI为一个图片配上文字。乍看上去,它就像一个AI应用的大广场。对于有一些代码知识的人,还可以一行代码实现模型推理,十行代码实现模型调优和定制,有更进一步需求的开发者,则可以在几个小时甚至几分钟就完成代码下载、安装部署到效果验证的全流程。

但是在这些直观的上手应用背后,调用的其实是许多炙手可热的业内最领先的模型,甚至包括不少花费天文数字巨额投入的大模型。这前所未有。

凡是对AI产业有些了解的人此刻已经马上意识到:这个平台是在彻底打破AI发展到今天最主流的商业模式。

“过去这些模型都是各个AI公司的核心商业资产,AI的商业化就是通过封装售卖这些模型完成,今天等于价值几个亿的东西全都免费提供给所有人了。”

在这个平台的背后,牵头者为阿里巴巴达摩院和CCF开源发展委员会,首批合作方还包括澜舟科技、深势科技、智谱AI、中国科学技术大学等。11月3日,在2022年的云栖大会上,阿里巴巴集团资深副总裁、阿里达摩院副院长周靖人正式发布了魔搭社区ModelScope。

 图源:阿里巴巴
图源:阿里巴巴

“过去AI只掌握在少数算法人员手中,难以走向大众化。”他说。现在是时候改变了。

达摩院已经在魔搭上开源出300多个经过验证的优质AI模型,包括150多个SOTA(业界领先)模型,且超过1/3为中文模型。

那么,究竟是什么让达摩院这些最聪明的头脑们一致决定,把自己五年多来投入巨资研发出的宝贵家底——AI模型,如此决绝的开源出来交给外界?

终于到来的AI范式革命

当达摩院副院长周靖人一年多以前跟视觉算法专家赵德丽在阿里内部讲出模型即服务(Model as a Service,简称MaaS)的概念想法时,这位达摩院基础视觉负责人眼前一亮。

“靖人给我们提这个事的时候,当时就觉得非常靠谱,因为这种想法我们也一直有。”他对品玩回忆。包括他在内的达摩院许多算法专家都意识到,这可能是一次革命性的机会。因为它可以解决今天的AI技术研发与AI应用困局。

让各种模型能在同一平台上基于统一的标准彻底开源,这个事情是需要等待技术成熟的时机的。而今天MaaS等到了。

“我是做算法的,而且是生成模型,我意识到这个事情能做的背后,是有非常深的算法逻辑在里面的。”赵德丽说。

过往人工智能模型有些八仙过海的意味,架构众多。但2017年之后,Transformer的出现改变了这种趋势。“Transformer出现之后,算法架构从NLP开始,再延伸到视觉方向,迅速统一,基本都以Transformer为底层架构。之后又出现的生成模型Diffusion model也是这种趋势。”

也就是说底层架构逐渐走向了统一。“而生成模型的本质,就是给数据分布建模,无论Transformer还是Diffusion模型,它的算法公式里就是怎么去给数据的分布建模。所以只要数据的分布能够被清晰建模,能有一个非常好的基础模型,一旦构建出来之后,基于分布本身的各种应用就能做了,各种问题就有了解决的途径。”

赵德丽将此形容为AI技术一次重要的范式转移。而它也使得AI的应用方式也有了破局的可能。

“很长时间里,AI公司商业化的做法就是专门针对一个具体场景、提供一个算法服务、部署,然后收费。但这个模式的竞争力一天天减少,价值越来越低。”他说。

而且,在这样的逻辑下,研发和产业应用其实在彼此越走越远,AI研究界一个个看似带来突破的模型,却往往沦为少数精英的狂欢,狂欢的另一面是越来越困难的应用。这种特权已成为阻碍AI发展的最大阻力。越来越多的人意识到,找到一个巨大的单一场景,形成一个所谓的AI killer app,进而实现可持续的商业化更多变成了幻想,这条路已经走不通了。

“今天我们的想象力还不够丰富,需要有更多的开发者来不断的去用他们的创造力,不断的拓展模型的使用,不断创新。 ”周靖人对品玩表示。

他把这些新变化带来的AI发展模式总结为MaaS。

AI的生产本质就是模型的生产。周靖人认为,人工智能发展到今天这个阶段,模型本身是重要的一个载体,也是今天的一个重要的技术模块。达摩院需要做的是围绕着模型本身去搭建相关的服务。

“而魔搭就是在整个MaaS理念下面的一个社区,是MaaS的重要体现形式。  ”

 图源:阿里巴巴
图源:阿里巴巴

所有的想象落在了魔搭上

算法科学家们都在感到事情正发生变化,但很长时间里却依然对如何下手感到茫然——他们缺少一个能承载住这些变量的东西,MaaS的概念是很吸引人,但”服务”显然比封装出来的“产品”模糊多了。

如何让它变成一个让人摸得到的东西?魔搭就是那个答案。

这是一个希望可以一举三得的设计:更多人参与增加了应用的可能性;算法人员的工作被更多人看到并且更快速的可以看到应用的商业化潜力;而门槛的降低还意味着算法科学家们不再需要跑到一个个工地上去,而可以回到他们最擅长的事情上来——在基础研发上努力突破。

不过,当周靖人和达摩院各个算法实验室的负责人在内部公布这个项目时,不出意外的,还是有不少人表现出了迟疑。

“把我们最好的压箱底的东西开源,而且是彻底的开放,这就等于你辛辛苦苦做出来的东西,别人就直接拿去用了,甚至会有人担心说会不会以后饭碗都没了?”鄢志杰说。他是达摩院语音实验室的负责人。

但很快,在几次内部宣讲后,达摩院的科学家们便不再质疑——再多的纠葛也会被一件事抹平:没有哪个优秀的算法开发者希望自己的算法藏在角落,他们都希望被更多人看到。

而且,这还是一个从未有过的公平的“掰手腕”的机会。据魔搭社区架构师陈颖达介绍,魔搭可以提供标准的数据集,标准的接入模型方式让不同模型可以更公平更直观的做比较。“所有人都可以去复现。”

“我认为光从模型参数的大小是不能够区分大模型的好坏。我们可以不断去堆模型参数,但并不代表这个模型本身有质的飞跃。”周靖人说。“今天我们其实是缺乏一个benchmark(基准),去对各种大模型进行公平的评比。”

这些算法工程师们开始快速投入魔搭的建设中,微妙的变化也开始发生:

“随着魔搭在内部试运营,大家看到有一些模型会得到开发者的认可,他们开始有非常好的成就感。”赵德丽说。有的开发者甚至为一个模型写了万字长文的评测文章,让开发它的算法工程师很受鼓舞——在过往的模式下,往往只有那些最明星的算法模型,才可能享受这般热烈的讨论。

目标统一后,达摩院原本较为轻松的科研氛围也开始变得有些紧张。“我们现在一周有三次会,靖人直接参加对规划和质量把关,解决各种问题。”赵德丽说。

达摩院许多小组在负责开发不同领域的模型,而在魔搭基本准备好后,各小组也开始同时忙起来,改造模型,尽可能快和稳定的把它们放到平台上。

而模型放上去只是个开始,更重要的是更新和维护。“让用户一行代码完成工作的背后,靠的是我们在后端建起的完善的模型存储和版本管理等一系列机制,把模型的自动发现、自动获取与加载。都在一行代码后默默实现。”陈颖达说。

平台上的各种不同模态的模型越来越多,魔搭需要把它们可能遇到的不同使用方式,微调方式,都做好分层的设计,这是一个十分精细的工作,在给初级用户提供非常友好的封装接口的同时,还要保持整个系统的超强开放性。“10行代码实现调优训练,是我们为模型开发者迅速上手而降低的门槛,但对于高阶开发者,我们同样允许他们在魔搭框架接口,和底层AI框架API之间,自由寻找合适的切入点。框架要做的是,提供丰富的必要的组件,供开发者自由选择。”

工具体系是否足够完善也是影响体验的关键。“我们这次也做了一个Python的包,对接到今天各种机器学习框架,让它们能快速引入,快速自动进行模型的下载,能在本地进行二次开发。”周靖人说。

平台搭好了,更重要的是吸引更多的人一起来创造。牵头者呈现出的诚意究竟怎样就十分关键,所有人都在关注,达摩院放出来的模型是什么水平,是小打小闹还是动真格。

“我把我们挑选的标准,称为叫好又叫座的模型。”鄢志杰解释,叫好指的就是把今天学术研究领域达摩院最新的成果直接分享出来;而叫座指的则是将达摩院当前在应用侧承接业务流量的、真刀真枪的那些模型开放出来。

“有些是正在公共云上按调用次数收费的模型,通过魔搭现在变成了开箱即用、大家都可以接触到的模型。”

“今天模型要能够真正做到开源,做到免费使用,这个方面还是要有一定的决心,才能一起把生态激励起来,让更多的人参与进来。”周靖人说。据他在发布会上公布的数据,目前已上架的中文模型超过100个,包括了一批探索人工智能前沿的中文大模型,如阿里通义大模型系列、澜舟科技的孟子系列模型、智谱AI的多语言预训练模型等。这些都是炙手可热的模型。

“我们的计划是接下来每个月都会有新的模型上线。预期很快模型的数量就可以翻倍,覆盖到今天主要领域的方方面面。”

 图源:阿里巴巴
图源:阿里巴巴

回归初心的达摩院

魔搭是一个很达摩院的设计。

对比另一个在今年巨额融资后声名大噪的模型开源平台HuggingFace,更能感受到达摩院的做事风格。

HuggingFace鼓励人们去更活跃的参与,甚至带有很强的玩的属性。但如果要真实的产业应用,更多时候还是需要再次回到老的路上。而魔搭做的更彻底。

“我们想的更多是,今天如何能够快速把你的模型从一个开发的环境变成一个生产的环境,怎么跟一系列前端的机器有效结合?提供一个完整的模型服务?”周靖人说。“甚至跟你的线下应用,跟你的线上服务一系列交互也要有效的联合在一起,从而真正意义上建立起以模型为中心的整个生命周期的管理,只有做到了所有的这些环节,才真正意义上叫做MaaS 。”

达摩院从诞生第一天,就在解答基础研发和产业应用之间关系难题,并因此成了一个独特的机构。魔搭延续了它的思路:一切技术创新要有产业价值。

达摩院的想法诞生于2014年,当时的阿里云趟出一条路后,阿里巴巴看到了技术创新的巨大潜力,这家公司的技术领导者们认为需要有一个“武学殿堂”一样的机构,研究最厉害的技术。它从一开始就是一个十分宏大的设计,也因此延迟了几年才慢慢成型。先是前身IDST(数据科学与技术研究院)的组建,后来到2017年达摩院才正式成立。

初期,它的许多研究落点依旧是根基于阿里巴巴的业务。从2014年上线的用计算机图像技术实现上传照片识别商品的产品拍立淘,再到2020年的物流机器人小蛮驴,都有些拿着技术的锤子在阿里巴巴丰富的业务场景里找钉子的意味。

这也是达摩院吸引来很多科学家的原因:阿里全面的业务场景给了这些技术人员庞大的数据富矿和最大的应用空间。其中,阿里云和达摩院的全方位结合,就是这种模式最“丝滑”的呈现:比如数据库系统专家李飞飞,加入达摩院并负责阿里云数据库事业部;深度学习框架专家贾扬清加入达摩院,同时负责阿里云大数据计算平台事业部。他们把最新的前沿研发用在最大最真实也是最残酷的生意场景里。

但这也一直提醒着达摩院,自己尚未完全兑现的潜力:能做到如此丝滑的结合,其实是因为阿里云本身就是一个全新的体系,它需要新的前沿原创技术成果来支撑,而达摩院诞生之初,被阿里巴巴寄予的希望是承载这家公司的技术梦想,“要活得比阿里巴巴还久”,甚至是定义未来的阿里,所以某种程度上,达摩院的初衷和使命是在这里再诞生一个阿里云——一个以技术代际变革带来的全新体系。

而抓住这种新体系的机会的关键,往往并不是靠什么天才的颠覆性技术的灵光一现,更多是技术链路的不断积累和浪潮来临时刻,勇于承担风险义无反顾的大力投入。这样的故事不断发生,比如英伟达通过以CUDA为代表的不计回报的投入,在通用计算上有了积累,让它在等来人工智能爆发后能快速蜕变成一家最重要的计算公司,比如在搜索还没证明自己商业能力时就在积累算法人才的那些公司,天然更接近自动驾驶等新机会,再比如去IOE的故事和阿里云孤注一掷后的成功。

 图源:阿里巴巴
图源:阿里巴巴

在成立的第五年,达摩院在AI技术领域的积累也达到了全球商业公司里少有的完备成度。

“在过去的AI探索当中,达摩院自己完完整整的做完了从研到发,到产生价值,到提供API的过程。”鄢志杰说。

然后,一场达摩院算法科学家们都深信不疑的范式革命到来。达摩院第一次集合力量投入到同一件事上。

“达摩院是在过去几年走完了所有艰辛历程的一个组织。今天把我们走完这些路以后提炼出来的这些模式、这些工具、这些平台或者这些基础,一五一十的分享和开放给大家了。 ”

这种“All in”背后,也是基于对今天AI 产业困局根源的判断。

“你们仔细看一看其实会发现,AI从来没有自己变成一个产业。”阿里云智能总裁、达摩院院长张建锋在云栖大会接受品玩等采访时说。“AI是工具,而产业化要靠真正使用这个工具的、垂直行业积累最深的公司们来完成。”

这是一个熟悉的阿里巴巴式解题思路——淘宝天猫,支付宝和菜鸟们,都不是单点的电商公司、付款工具和快递企业,而是某种新体系的搭建者,从让天下没有难做的生意,到让天下没有难做的AI,达摩院今天也迈出同样的一步。

这个独特机构的组织形态也迅速开始相应的调整。

“以前我们团队都是以业务为目标来命名,比如这个组做虚拟试衣、那个组做图像搜索。现在不是了,团队的名字改为技术名本身——这个团队做表征学习,那个团队做生成模型,以技术方向来给团队命名。”赵德丽说。

整个团队从算法的研发方式上发生根本性转变。从以前解决一个具体的业务问题,转回到做基础能力研发。相应的,团队的职能和人员分配思路,也在重塑。

“我们确定好以基础模型、生成基础能力作为核心,然后在一些比较重要的垂直方向上向外拓展,来决定做哪些更深入研发。”

一切都奔着一场集中力量的大变革而去。魔搭让达摩院各实验室第一次有了一个共同目标,把所有技术能力集中在一个模式上,有了一个对外输出的统一平台。

成立第五年的达摩院,也终于第一次把最重要的一批鸡蛋放到了同一个篮子里,押注到了一场新的范式革命上。其实达摩院也一直在等待这一天。

“以今天魔搭这个项目的方向来说,它跟达摩院的初衷是非常一致的。”周靖人说。

“甚至可以说,我们回归了初心。