元宇宙

快讯-全球航海十余载,昆仑万维深潜AIGC

作者:CETCIT小编

2022-12-28 21:19:06

在键盘上轻轻输入一些词组:戴VR眼镜的一只熊猫——会发生什么?

等待数秒,机器就生成了数副画作,数只不同风格的熊猫,或时髦前卫、或憨态可掬……跃然于屏幕之上。


12月15日,昆仑万维最新发布会上,CEO方汉正在展示旗下AI绘画模型“天工巧绘”的成果。

天工巧绘来自昆仑万维旗下的“昆仑天工”,这是昆仑万维集团推出的全系列AIGC算法与模型,也是昆仑万维这位互联网“老炮”储备已久的“技术武器”。

在2008年诞生于国内游戏行业崛起之时,昆仑万维从页游研发和全球游戏发行起家,又早在2009年就进军海外,是中国最早一批出海的游戏公司。

而成立14年,昆仑万维如今完成了从单一游戏平台到领先的互联网出海企业的战略升级,业务遍布全球5大洲、70多个国家和地区,构建了用户遍布全球的信息分发、元宇宙、文娱、社交多元业务版图。

而昆仑天工的发布,是如今AI技术再度火爆的一个切面。将视角拉到全球,从今年春天开始,AI技术的革新进展,如同一场新风暴,以迅雷不及掩耳之势席卷全球创投圈——

今年3月,AI生成图像技术的进步,就已经冲出技术圈,成为大众热议话题。2022年4月,Open AI 发布旗下模型 DALL-E 2。再到开源的 Stable Diffusion 在8月开放,引发了无数开发者和大众对AI的热情。人们争先在模型中输入对画面的描述,然后静待机器生成一张独一无二的画作。

如果说文字生成图片让AI重归大众视野,那么近期OpenAI发布的ChatGPT,真正意义上让人们看到近在咫尺的AIGC前景。

12月,OpenAI发布产品ChatGPT,在短短 5 天的时间里,ChatGPT 就有了 100 万用户。而2019年发布的上一代大模型GPT-3,则花了将近两年才达到这个用户量。

Gartner预计,到2025年,生成式人工智能(Generated AI)内容将占所有生成数据的10%,目前这一比例还不到1%。

AI商业化的景象变得如此具体,许多尝试已经开始。从技术底层到上层应用,不少公司和个人都已经入局。今年,国外不少基于AI领域做垂直化应用的公司,如Copy.AI、Jasper等,均已经完成新一轮融资,商业化速度也让人惊艳。比如,Jasper年收入就已经达到近亿美元。

在未来,AIGC将是技术、产品、商业模式等方面的综合耐力赛,但比赛早就在多年前拉开序幕。

01 AIGC爆发背后,AI大模型的“竞赛”十年

从文字生成绘画,到如今ChatGPT能写作简单的信件、公文到解释专业领域的问题、写代码、解答数学题,其赖以生存的核心都在于——AI大模型。这一波AI浪潮的燃料,也由此而来。

AI大模型,顾名思义,即是拥有巨大训练样本量的模型。2017年开始,Transformer结构的提出,让深度学习模型参数突破了1亿。此后,谷歌、Meta等大厂就开始了如火如荼的AI大模型“军备竞赛”——这是一场以巨额金钱、人力投入的战争。

“军备竞赛”先从扩大模型的规模开始。随着深度学习技术发展,这一波通用模型中的数据量,很快到了十亿级甚至百亿级。今年让AI圈为之一振的GPT-3模型,就是一个通用大模型,参数量已经到了千亿级别。

GPT全称为 Generative Pre-trained Transformer (GPT),是一种基于互联网可用数据训练的文本生成深度学习模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。

简单翻译,这是一个通用模型——可以横跨文字、图片、音频等领域,执行不同类型的任务。无论是文字生成图片、还是ChatGPT所需要的问答能力,都是基于GPT大模型上再进行预训练、调优的结果。

两年前,GPT-3模型发布之际,就引发了长时间的讨论,但热度还是集中于开发者社区中——作为一个自监督模型,GPT-3的参数是前一代GPT-2的100倍,几乎可以完成自然语言处理的绝大部分任务。

一个有名的例子是,GPT-3模型发布后,曾有人让AI假装成真人,在Reddit论坛中回复了许多问题,最终因为回复频率过快,被识破是AI机器人。

近期的ChatGPT,正是基于GPT-3.5训练的结果,相当于在GPT-3之上再进一步——但这已经足够让人惊喜。不久后将要发布的GPT-4,11月中旬已有多个业界传言称其可以全面通过图灵测试,这无疑会是AI领域的里程碑。

“在2017年,李开复老师曾经说过一个5秒钟准则:需要思考5秒以下的人类工作将被AI取代。那么到了今天ChatGPT的发布,可以说,人类5分钟到5个小时之内能完成的工作,都可以被AI取代了。”方汉对36氪表示。

AI大模型的发展离不开开源的贡献。方汉从1994年开始参与和倡导开源运动,是中文Linux奠基人,在开源领域有相当丰富和深厚的经验。在2019年底看到GPT3的发布之后,他敏锐地意识到,一场改革即将来临。

“作为技术人员,我们对GPT3的技术领先性是有非常强烈认知的。”他对36氪回忆道。因此,从2020年开始,昆仑集团决定大力投入到AIGC领域中,至今已经组建起一支超过200人的团队。

近十年,是AI技术更上一层楼的十年,同时也和昆仑万维的全球航线相重叠。

2008年成立后,昆仑万维曾经凭着当家的游戏业务,一举冲到同赛道的前列,其游戏开发曾在韩国网页游戏市场取得第二,在日本网页游戏市场做到第一。2009年大力进军海外市场后,昆仑万维的海外收入占比很快就到达了60%以上。到了2015年,昆仑万维在A股上市,市值最高点时曾达700亿元。

随后,昆仑万维开始将业务版图延伸到社交、娱乐、内容等领域中。2019年时,昆仑万维已经成为综合性的全球互联网平台,旗下除了游戏业务,还包括以浏览器Opera为入口的内容平台、移动游戏平台(GameArk)、休闲娱乐平台闲徕互娱和投资为主的多个业务矩阵。


所有人都明白AI技术的战略意义所在,但对早早出海的昆仑万维而言,业务端对AI技术发展感知可能更为敏锐。

早在2017年,昆仑万维董事长周亚辉就在演讲中表示,在中国,AI市场最大的机会在于人工智能跟行业的结合。“互联网+”行业只相当于美国把各个行业的IT做了一遍,本质上并没有提高生产率,但AI在中国,会成为一个现象。”

对2019年的昆仑万维来说,更重要的考量在于,在业务入口建立起来后,大力投入到AI中,会让昆仑万维在内容生态中更进一步——昆仑万维业务横跨超过100多个国家,各国的语言文化、风俗习惯都非常不同。而AI的力量,能够让昆仑万维拓展疆域时事半功倍。

以昆仑万维旗下的Opera浏览器为例,Opera是第一代互联网浏览器产品,昆仑万维于2016年收购Opera后,带着Opera从浏览器业务延展到搜索、导航、内容分发、社交等板块。


值得一提的是从2018年开始推出的产品Opera News。方汉坦言,当时海外市场尚有不少流量增量,在将Opera延伸到信息流广告时,就十分依赖机器学习等算法。因此,团队组建了一支一线的AI团队,大力投入到信息流业务中,并且也借此探索AI+各个行业的商业机会。

应用AI技术后,Opera成功实现了快速发展。Opera 2022年第三季度业绩大幅超出之前的指引高线,营收同比增长28%,达到8530万美元;调整后EBITDA达到 2140万美元,而2021年同期调整后EBITDA为820万美元,同比大增161%。Opera News成为昆仑万维在非洲、东南亚等新兴市场的增长曲线和业务抓手。

除此之外,昆仑万维也在多年的出海历程中,搭建起一套对技术和创新的组织机制,从而建立起自己的“文化数据库”——包含覆盖全球多个地区的内容、资讯,可以认为是一种文化行业的know-how。

昆仑万维的业务遍布全球一百多个国家和地区。从2009年就开始出海,昆仑万维多年来已经拥有一套成熟的运营体系——“我们进入任何一个国家,都是先推广一段时间,试试看,再根据结果去调整。”方汉在接受创业邦采访时表示。

日积月累下,从对AI技术的探索,到“文化数据库”的建立,都成为此次发布的“昆仑天工”的铺垫和前奏。

02 AIGC,内容生态的“神经网络”

如今,“昆仑天工”作为昆仑万维集团的AI新板块,将成为业务的新增长动力。

昆仑天工在2020年下半年正式启动,至今已经投入了数千万元的技术投入,技术进展迅速:在项目启动不到一年,2021年8月,昆仑天工就开始研发基于自有大文本模型的对话机器人,并且迅速刷新国内技术指标。

当前,昆仑天工已经形成两大类技术方向,一是类GPT大模型的应用,基于多国语言大模型实现文字、图像等生成工作,旗下已有包括天工巧绘、天工智码(编程代码)、天工妙笔。二是AI+音乐,这是昆仑万维集团具有独创优势的业务。

AI大模型从数据底层到真正落地应用,都并非一日之功。由于中美市场开源生态不同,且当今美国公司所研发的大模型并没有完全对国内市场开放,中英文之间也存在巨大差异。总体而言,中文领域的AI大模型处于发展更早期,谁做得更早、数据质量更高、算法更好——成为这一轮竞争胜出的关键。

而从数据底层来看,不同于如今看到AIGC前景才刚刚入局的公司,昆仑万维在多国大模型上的布局可以追溯到两年前,现在已经初露锋芒。

方汉表示,从技术底层看,昆仑万维针对中文领域构建了千亿级别的高质量数据集。通过高性能a100-gpu集群,昆仑天工进行精益求精的训练后,得到百亿参数量的GPT-3生成模型。

“我们针对中文特点,重新设计了独特的中文编码方式,更加符合中文语言习惯,让我们各项指标都优于市面上的很多模型。”他解释道。

当前,昆仑天工的AI大模型能够拥有多样的任务能力,包括续写、对话、中英翻译、内容风格生成、推理、诗词对联等。当前,在各项专业性领域的任务中,如分类、匹配、填空、识别等,昆仑天工的表现突出,与现有中文大模型的对比,也能够排列前茅。

以天工巧绘Skypaint为例,这是全球第一款多语言stable diffusion分支模型,支持中英双语的提示词输入,实现文字生成图像,在数量和丰富度上都有较好优势。


昆仑天工AI绘画作品

而更值得一提的,昆仑万维旗下的音乐平台StarMaker,是依靠自研的垂直AIGC算法,成功实现AIGC商业化的成功案例。

StarMaker为昆仑万维董事长周亚辉孵化的音频社交平台。2017年,StarMaker刚刚诞生时,就选择了以K歌作为切入音频社交的入口。

这一业务在中国已经不是新鲜事,但在中东、非洲、东南亚等市场,还是蓝海领域。在拓展到这些市场时,团队面临的最大问题并不是版权,而是伴奏带。

“我们找音乐公司买版权,但买了版权之后,很多公司是不会给你伴奏带的,但K歌需要无人声伴奏,我们只能自己来做。”方汉对36氪介绍。

但在以前,用人工做声音消除,成本要达到每首千元以上,成本高昂,AI技术的需求由此而生。2018年,昆仑万维专门组建了研发AI作曲的实验室StarX MusicX Lab,带着近10位博士研发了将近三年,将AI人声消除技术做到世界头部水准。

到现在,昆仑万维每进入一个国家,一旦完成版权交易,昆仑万维就能瞬间生成相关歌曲的伴奏,如今伴奏库中已经有近300万首伴奏曲带库,将其midi化后,就成为了一个高质量的数据音频数据集,这让StarMaker实现快速扩张。

如今。StarMaker已经在中东、东南亚等20多个国家成为移动KTV赛道的第一名,2022年日活已经超过2.4亿。

StarMaker展现了AIGC丰富商业化前景的一角。而昆仑万维基于自研的AIGC模型,已经可以满足很多自身业务的基础外包需求,实现降本增效。

方汉以具体业务举例,原来昆仑万维的对外采购一首游戏音乐需要数万元,一个游戏可能需要超过2000个图标,外包美术的成本可能会占据游戏成本超过60%,有了AIGC相关模型后,成本大约可以下降一半。

而在自身业务上验证了商业闭环后,昆仑开始推进AIGC的商业化,也是水到渠成。

随着如今音视频、娱乐、社交平台不断发展,企业对音乐的需求呈快速增长。“真正启动商业化后,我们发现商业化需求比我们想象中大得多。”方汉表示,“比如不断增长的MCN生态中,无论是MCN还是网络歌手,对付费音乐的购买意愿都很强烈。”

从效果而言,对普通的流行歌曲,AI已经能够胜任。昆仑万维团队曾经在印尼市场,为一位网络歌手提供一首由AI作曲的歌曲,由歌手进行填词。最后,这首歌进入了当地音乐排行榜的前100位。

更让团队惊讶的是来自新能源车领域的需求。很多新能源品牌已经将音乐作为提升用户体验的重要一环。通过天工乐府,企业能够生成匹配不同天气、季节的氛围感音乐,用户能够有更沉浸的产品使用体验。

当前,昆仑天工在多个领域的商业化也已经开始,覆盖文字、图像、音乐等多个方面。

方汉也表示,随着AI能力不断提升,垂直赛道大有可为。“比如海外的Grammarly,一个非常简洁的自助语法纠正工具,能够做到4000万的用户量,付费用户规模也很大。”2021年,Grammarly的ARR已经达到7200万美元,公司也已经迈入百亿美金独角兽行列。

而将视角拉得更远,随着昆仑天工引擎的逐渐成熟,AIGC将会成为内容生态中的“中枢神经”。

“中枢神经”该如何理解?首先,AIGC领域的突破,是技术变革能够大大降低内容生产成本的结果——创作一幅画、一首音乐,AI可能只要数秒。这样的创作效率,将会为多媒体内容的生产带来一场全新的革命,很多工种和行业将被颠覆。

在极大丰富生产力的基础上,昆仑万维也更有余力建造更为复杂多元的内容生态。

就在2022年第三季度,昆仑万维发布了元宇宙StarMaker VR,这是基于StarMaker为基础的VR音频社交平台。用户在佩戴VR头盔后,可以创建虚拟的音乐空间,在其中演奏乐器、唱歌、举办演唱会等。在引入AIGC引擎后,用户可以使用二次元声效自己创造独特的声线。

近期,StarMaker VR还加入了社交巨头Meta旗下的Oculus开发者扶持计划——这意味着来自全球VR市场的重要认可。

未来,如果说VR头盔是硬件入口,StarMaker平台是内容生态基础,那么AIGC的应用真正成熟后,将会成为整个生态的“神经网络”,让一个领域真正才从萌芽期走向成熟。

03 彼岸

AIGC的爆火,让全世界看到巨大的技术前景,人们普遍认为,一场生产力的范式转移即将到来。

今年9月,红杉资本发表了一篇题为《Generative AI: A Creative New World》(生成式AI:一个创造性的新世界)的文章,描绘了生成式AI的巨大前景:生成式AI覆盖了知识工作和创造性工作,而这涉及到数十亿的人工劳动力,至少可以使效率提高10%。在未来,生成式AI能够带来数万亿美元的经济价值。

与上一代以视觉识别(CV)为核心的AI浪潮不同,AIGC直接帮助人类完成基础性的创造类工作,直观展现了其价值。这让AI迅速走到了技术和商业化的交叉口。其终局,是会让整个社会的生产力得到极大解放。

“AI和人类的关系,在突破临界点后,会发生质变。”方汉对36氪表示,AIGC真的“能给B端省钱,给C端省事”,这是其商业化步伐走得更快的决定性因素——但另一方面,这也意味着,商业竞争会更快开启,AIGC横跨各个语言和文化,玩家们的竞争从第一天起就立于全球化的语境之下。

而在技术创新背后,AIGC背后所蕴含的开源、全球化精神,是更值得期待和探讨的方向,也是昆仑万维重点押注的未来前景。

AIGC是开源文化孕育的典型产物。如今成为全球当红炸子鸡的OpenAI,尽管在全球火了一把,但其被质疑甚多的正是没有开源,只向外提供api服务。

如今,海外的“大练AI模型”竞赛尚未停歇,但开发者们正在形成一个共识:AI大模型只有走上开源之路,才能长青。

今年5月发布的AI大模型BLOOM,包含高达1760亿的参数,就是一个证明——BLOOM的发起者BigScience,是一个松散的协作型组织,BLOOM更是由来自70多个国家的1000多名开发者共同训练而成,这个模型已经成为许多大厂大模型的有力竞争对手。

因此,尽管中国市场在早期,但方汉认为,开源是在国内AIGC领域的破局之道——AI大模型的训练成本尚在高位,动辄千万美金起,若不打破大公司垄断局面,生态很难发展起立。而开源能够集中社会各方的力量,让技术跑得更快。

昆仑集团从成立之初,就已经积极地在开源领域贡献力量,曾投资过PingCap等中国领先的开源数据库。而“昆仑天工”这一名称的由来,是明朝科学家宋应星所著《天工开物》—— 一本古老的技术百科全书。

这一名称寄托着昆仑万维集团对技术的原始信仰。在12月15日的发布会上,昆仑天工更是宣布,已在GitHub上进行开源,未来也会投入更多资源,在开源社区的建设之中。

昆仑万维的全球航程仍在继续。而AIGC将会成为元宇宙的基石和引擎,将为所有玩家打开全新的增量空间。

“两年来,我们已经在昆仑天工上投入了数百张AI训练CPU,以及数千万元的研发投入,这是扎扎实实的工作。但工作做得越多,越感受到市场之大,技术可能性之多。因此,我们也呼吁,希望通过开源吸引更多创业者和商业公司,加入到AIGC事业之中。”方汉表示。

web3.0教程