17173 > 游戏资讯 > 2023ChinaJoy > 正文

出门问问副总裁 李维

2023-07-28 14:25:46 神评论

很高兴有机会跟大家分享出门问问在大模型、AIGC方面的工作。

出门问问出门问问是一家以生成式AI与语音交互为核心的人工智能公司。从语音助手开始,软硬结合,现在着眼于大模型及大模型所能够辐射到的多模态AIGC各个方向的探索和创新。自研大模型的名字叫做“序列猴子”,“序列猴子”怎么来的呢?法国数学家埃米尔·博雷曾提出一个“无限猴子”定理,如果时间没有限制的话,让一只猴子在打字机上打字,能打出一部莎士比亚出来。“序列猴子”的意思是如果把足够的数据Feed给模型,最终模型能力一定会具有通用性。

“序列猴子”是GPT形式具有通用能力的大模型。

可以看到它已经具备一定的推理能力和计算能力,除了对话,大家都知道大模型人机对话的丝滑能力已经超过一般人类了,这是大模型的特点。

在大模型赋能下,我们是最早进入AIGC赛道,最早跟大模型接通的企业之一,在配音方面拥有最多付费客户,特别是魔音工坊,魔音工坊做配音工作,我们在抖音里看到的配音很多都是出自魔音工坊。

在多模态方面的AGIC,奇妙文是用大模型来帮助生成内容、文案。言之画可以文字生图、图生图,魔音工坊是最早进入市场的,做得比较成功的一款产品。奇妙元是数字人制作平台,现在处于爆发的前期,可以把奇妙元看成是魔音工坊的延伸。奇妙文是大模型长线,可以辅助用户生成文案,写小说、诗歌。在奇妙文当中,用户可以调用言之画生成图片,跟文字相关的图片,能够自动生成。

魔音工坊是配音助理。

魔音工坊在国外的版本叫做DupDub,因为有用户基础,有很多反馈,做得比较丝滑,比较讲究,有各种编辑,能够使你的配音更加契合视频的需要需求。混音的功能非常实惠,有各种组合的可能性,把一种情绪变成另外一种情绪。

奇妙元集中了各种模态,现在处于爆发期。数字人分三种模式,一种是2D,一种是2.5D,一种是3D。

最简单的是2D,2D是图片一键生成,不过已经很逼近2.5D了,2.5D要做声音克隆和形象克隆,还需要些时间。

像这个是2D,图片一键生成,这是25年前的我。 这是2.5D,现在的我。

3D形象转2D形象,在多模态方面有AIGC沉淀矩阵,最主要的是底座“序列猴子”,因为它是AIGC产品矩阵的大脑。

我们所追求的是要有高质量大脑,否则怎么生成有价值的内容,或者至少是辅助生成。在创作类型中,大模型起很大作用,在其他场景,大模型可能会有幻觉的问题需要人去把控。但不管怎么说,大脑很重要。其他的都涉及感知层面的,要有动听的声音,我们已经做到了,配音在业界做的是在前列的。要有好看的外表,我们公司也做硬件,比如说智能手表,通过软件植入到硬件中跟客户接触。

以及还有在企业方面数字人的应用。

谢谢大家!

【来源:官方】

关于出门问问的新闻