日本虚拟数字人的发展现状及未来发展趋势分析报告

3.3.1 发芽阶段

1980年代,人们开始尝试将虚拟人物引入现实世界,虚拟数字人进入萌芽阶段。这一时期,虚拟数字人的制作技术以手绘为主,应用极为有限。

1982年,日本动画《微距要塞》播出后,制作人将女主角林明美包装为演唱动画插曲的歌手,并制作了音乐专辑,成功进入当时著名的日本音乐排行榜Oricon ,林明美。明美也成为了世界上第一位虚拟歌手。

1984年,英国人乔治·斯通创造了一个名为Max Headroom的虚拟角色。MAX拥有人类的外表和面部表情,穿着西装和太阳镜。他参演了一部电影并拍摄了几则广告。成为英国家喻户晓的虚拟演员。由于技术限制,其头像是由真人演员通过特效化妆和手绘实现的。

3.3.2 探索阶段

21世纪初c语言流程图生成器,传统手绘逐渐被CG、动作捕捉等技术所取代,虚拟数字人进入探索阶段。

在这个阶段,虚拟数字人开始达到实用水平,但成本较高c语言流程图生成器,主要在影视娱乐行业,如数字双打、虚拟偶像等。电影制作中的数字化身一般使用动作捕捉技术. 真正的演员穿着动作捕捉服装,表情捕捉点被放置在他们的脸上。真实演员的动作和表情通过摄像机和动作捕捉设备进行采集和处理,再经过计算机处理后交给虚拟演员。角色。

2001年,《指环王》中的角色咕噜采用CG技术和动作捕捉技术制作,随后被用于《加勒比海盗》《猩球崛起》等电影制作。

2007年,日本产生了第一个广受认可的虚拟数字人“初音未来”。初音未来是二次元风格的少女偶像。早期的人物主要是通过CG技术合成,人物的声音由雅马哈的VOCALOID1系列合成。,呈现形式比较粗糙。

3.3.3 初级阶段

五年来,得益于深度学习算法的突破,数字人的生产流程得到有效简化,虚拟数字人开始走上正轨,进入起步阶段。这一时期,人工智能成为虚拟数字人不可分割的工具,智能驱动的数字人开始出现。

2018年,新华社与搜狗联合发布“AI合成主播”,用户输入新闻文字后,可在屏幕上显示虚拟数字人像并播报新闻,唇部动作可与播报同步实时发声。

2019年,浦发银行与百度联合发布的数字员工“小普”也是运用自然语言处理、语音识别、计算机视觉等人工智能技术打造的虚拟数字人,可为用户提供“人脸”通过移动设备面对面”的银行服务。服务。

3.3.4 成长阶段

目前,虚拟数字人正朝着智能化、便捷化、精细化、多元化方向发展,并已进入成长期。

2019年,美国影视特效公司Digital Domain软件研发部负责人Doug Roble在TED演讲中展示了他的虚拟数字人“DigiDoug”,它可以捕捉并显示实时表情和在照片逼真的保真度的前提下运动。. 今年,三星旗下的STAR Labs在CES国际消费电子展上展出了其虚拟数字人项目NEON。NEON是由人工智能驱动的虚拟角色。情感和沟通技巧。

3.4 驱动程序

3.4.1 技术创新

虚拟数字人的存在依赖于多种技术。因此,技术进步是虚拟数字人产业发展的主要动力。根据技术分类,虚拟数字人可分为真人驱动和计算驱动,在技术流程和细节方面存在差异。

(1) 人为驱动的技术流程:

? 形象设计与建模:基于IP设计或现实生活中的偶像,绘制原画,进行面部和身体的3D建模。选择关键点。

? 建模绑定:将识别关键点映射到模型上进行绑定。键绑定的数量和位置会影响最终结果。

? 表演捕捉:使用动作捕捉设备或特定摄像头+图像识别,捕捉身体、表情、目光、手势等关键变化。

? 驱动渲染:真实演员(虚拟偶像中称为“中间人”)根据制作需要进行相应的表演,实时驱动虚拟数字人表演。在更精细的制作中,将需要根据现场演​​员和模特之间的差异进行重定向。动作、眼睛、手指等采用不同的驱动方式,必要时需要语音合成,形成特定的设定语音。

? 生成内容,互动:直播,或记录其动作内容

图片[1]-日本虚拟数字人的发展现状及未来发展趋势分析报告-老王博客

3.4.2 计算驱动的技术流程

(1) 设计图像,扫描真人形态和性能,收集驾驶数据

使用多方位摄像头扫描通用/特定模型(可根据最终需求进行全身或局部扫描),并采集说话时的嘴唇动作、表情、面部肌肉变化、姿势等数据

(2) 图像建模、绑定

设计所需的模型,或基于特定的真人进行高度简化建模。执行键绑定。键绑定的数量和位置会影响最终结果。

当需要基于真实照片生成虚拟内容时,一种方法是将通用的人脸模型迁移到真实的黑色胶片上,形成虚拟图像,本质上就是表情迁移。另一种是生成动画效果。基于预设的图像分类算法,对真实照片中的眼睛形状、发型等元素进行分类,并与预设的动画元素进行匹配,最终生成动画风格的头像。

(3)训练各种驾驶模型是决定最终效果的核心步骤

利用深度学习学习模型语音、唇形、表情参数之间的潜在映射关系,形成自己的驾驶模型和驾驶方法。

充足的驾驶关键点和高精度的驾驶模型,可以高度还原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。Mofa Technology 等行业领先的模型可以组合上千种表情效果并包括眼动。科大讯飞和筑建智能等公司将从语音/文本中提取因素,并添加情感驱动模型。

到目前为止,大多数厂商的驱动器型号多为声唇式、声控式。动作、手势等驱动大多依赖于人工现场指令或预设驱动。

对于需要为特定真人定制的数字虚拟人,有的公司会在通用驾驶模型的基础上结合少量真人驾驶数据,训练出定制的驾驶模型。这种情况可以看成是预训练模型+小样本学习。

(4) 内容生产,基于输入语音(或从输入文本转换而来的语音),预测嘴唇运动和表情等参数

核心技术流程是基于输入语音,或首先基于TTS技术(Text-to-speech,语音合成技术)将输入文本转换为语音。基于语音,结合步骤3中的驾驶模型,并使用生成对抗模型GAN来选择最真实的图片,并推断出数字人每一帧的图片。按时间戳。将声音与每次飞行的数字人像相结合。

(5) 渲染以生成最终内容

直播时的实时渲染为了保证特定场景下的实时低延迟渲染,计算框架规模、算力供给等技术问题也会影响虚拟数字人的最终生成效果.

(6) 附加步骤

对于需要交互的虚拟数字人,厂商会预先设置问答数据库、知识图谱等,并承接虚拟数字人的对话系统。

虚拟人需要多种前沿技术才能得到极大的开发和应用。它是目前各种尖端技术的超级复合体,先进技术充斥着其产业的整个闭环。例如,其内容生产采用人工智能和数字孪生技术,其存储和认证机制采用区块链技术,其数据处理采用人工智能、云计算和云存储技术,其网络环境依赖于5G技术,其虚拟-真实交互和中国联通使用人体感知、3D渲染、扩展现实、脑机接口、可穿戴、机器人等。这些技术目前正处于快速发展阶段,而5G、虚拟现实、

3.4.3 政策援助

2016年以来,我国虚拟现实市场总体看好。政策层面,文化部于2016年9月印发《关于促进文化娱乐产业转型升级的意见》,鼓励高新技术企业利用科研实力和技术优势,积极引进体感、多三维特效、虚拟现实和增强现实。等先进技术,进入文化娱乐行业。

2016年12月,国务院印发了《国家战略性新兴产业发展“十三五”规划》,提出加快发展虚拟现实、增强现实、全息影像等创新数字文化创意技术和装备。裸眼3D图形显示(naked-eye 3D)。发展,丰富数字文化的创意内容和形式,促进游戏、影视、动漫等相关产业融合发展。在市场层面,中国互联网产业的快速发展培养了大量的用户群体,激发了人们对互动娱乐的高度热情,以及对新技术和应用的开放态度,为虚拟现实行业提供虚拟现实行业基于C的娱乐服务应用场景。终端市场空间。

3.4.4 现实世界与虚拟世界的融合需求

在新一轮信息技术革命中,数字技术与现实世界的结合更加深入。例如,工业互联网、物联网等技术强调通过数字技术对生产设备和工厂进行数字控制;智慧城市促进城市治理和管理的智能化;需求直接转化为数据和算法产品。

虚拟人领域的应用需求

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论