现在我们在手机视频里经常看到,几百平方米的空旷房间内没有工作人员,屏幕上的“美女主播”正在全自动直播带货;在某餐饮短视频账号中,一名主播正情绪饱满地介绍产品,此时,“他”连续直播已经超过24小时…原来,他们都是AI数字大军,即数字人。
在今年电商行业的销售模式中,有超过50%的企业尝试新的营销手段——数字人直播带货。在直播期间,“家人们”、“上链接”、“321”等直播“黑话”他们张口就来。不仅如此,各个领域的大佬数字人出现在大众视野。不难发现,数字人分身、虚拟主播正在成为“潮流”的Style。
然而,基于越来越多的数字人进行直播的趋势,网络都在疯传:真人主播要失业了,AI要取代三亿人的工作等新闻。借此,华为开发者大会2023社区直播活动邀请到了硅基智能AI数字人事业部全国城市生态总监大成老师和华为云AI技术研发专家王朝老师,一起聊聊“AIGC浪潮下的数字人进化论”。

AIGC正在改变市场与行业
被问到“数字人主播是否会取代真人主播”时,大成老师给出了肯定的回答,他从三个方面进行的解释:
• 数字人主播可以降低整体行业的门槛,规避对主播颜值和过往履历的要求,并且可以直接生成各种风格的数字人,提高直播间的颜值和风格多样性。
• 数字人主播可以快速上手,不需要培训和熟悉产品,也能做到24小时不间断的工作,提高直播效率。
• 数字人主播不需要考虑留存和分配的问题,不会出现被竞争对手或主播带走的情况,保障企业的投资和利益。

他还补充到,数字人主播现在在外形上基本可以做到以假乱真,不过在交互层面还是处于弱交互阶段,在比较丰富的互动上和情感表达上还有提升的空间。不过,目前的技术已经足以在各种场景下得到应用和落地,已经有很多企业在使用数字人主播,如电商、教育、文旅、银行金融等,数字人赋能千行百业的时代已经到来了。
“现在AI技术更新迭代的速度非常快,数字人也在不断进化升级。对于我们而言,拥抱AI,躬身入局是最正确的选择。”大成老师谈到。
数字人,要内外兼修
从技术层面来看,数字人主要两种模式:真人驱动型和计算驱动型。前者成本较高,用于影视创作、虚拟偶像等大型活动;后者成本更低,更常见。
针对计算驱动型数字人,制作流程为:制作模型→表演捕捉→模型驱动→模型渲染及后处理。在加入了AI技术之后,模型的制作可以由一段视频去做三维重建,表演捕捉则由一系列的驱动模型去代替。“这相当于是数字人的外在。”王朝说道。

除了外在,内在也很重要。为了让数字人像人一样开口说话,需要使用TTS技术(Text-to-speech,语音合成技术)将文本转换为语音,这是第一步。要让声音听起来毫无违和感,就需要使用声音转换技术,将原说话人的声音转换为目标说话人,同时保留原说话人的风格特色。做到这一步,一个基础的数字人就构建出来了。
要让数字人更加智能,可以使用NLP和CV技术,其中NLP用于支撑内在技术,CV用于支撑外在技术。王朝表示,现在的数字人互动性较弱,但GPT等大模型的出现可以弥补这一缺陷,以及diffusion model的生成能力可以用于数字人的模型制作和后期渲染,可以增加背景的多样性,使效果更有趣。
技术加持下,如何降低创造和内容成本
如果说,虚拟数字人成为连接元宇宙的身份入口。那么大模型掀起的热潮,生成式AI技术的爆发,则是虚拟数字人的“生动力”。生成式AI正在支撑虚拟数字人的回答变得更具多样性且拟人化,驱动数字人更好地表达情绪。
生成式AI是近年来发展迅速的领域,其中Diffusion model是一种重要的生成模型。王朝讲到,Diffusion model可以看做是一个去噪的过程,通过不断去除噪声图像中的噪声,逐渐生成我们想要的图片。这个过程是通过训练一个噪声预测器来实现,通过使用加过噪声的图片和第几次加噪声这两个参数去预测噪声本身。训练后的模型可以用来自定义生成图像,通过输入文本描述或其他控制信号来改变生成图像的样式和内容。
王朝表示,Diffusion model的优势包括生成能力强、可控性强、容易训练等。由于整个生成过程需要不断去噪,所以生成速度较慢。为了解决这个问题,许多diffusion模型并不在原始空间做去噪,而是选择一个低分辨率的空间进行生成,这也导致了许多绘画模型都采用了相同的结构。
“一般来说我们自己的生成需求,多数情况直接用基础模型是无法解决的。模型应用的关键是怎么样去自定义我们的模型,或者说怎么样去提升模型的可控性。” 王朝讲到,在应用方面,可以使用DreamBooth、lora和controlnet等方法来提高模型的可控性,这些方法可以帮助我们自定义生成图像,通过输入文本描述或其他控制信号来改变生成图像的样式和内容,从而满足我们的个性化需求。
数字人应用,让美好更近一点
“朋友们,我是谢晋,上影厂的一名电影导演,今年100岁了,此刻我竟然以人工智能数字人的方式来到SHO未来·海上论坛。”在上海电影节期间,出现了一个令人惊奇的影像——已故导演谢晋通过数字人的形式跨越时空和在场的电影人见面,让在座的观众惊叹。