如何通过照片生成数字人

操作步骤

  1. 登录MetaStudio控制台。
  2. 在“工作台”界面,单击“照片数字人”,进入照片数字人制作页面,如图1所示。
  3. 界面左侧展示配置项,右侧展示预览效果。配置操作,请参考表1。
  4. 图1 照片数字人制作页面

界面操作说明

副文本最多一行

区域

参数

说明

01 请上传您的照片
人像照片

单击“查看示范”,在弹出的“上传照片要求”对话框中,查看照片拍摄要求。

请严格按照要求拍摄并上传照片。照片格式必须为JPG、JPEG、PNG、WEBP,大小不超过16MB,照片比例推荐16:9或9:16。

视频名称

使用照片人像合成视频名称。

02 录入播报内容
选择一种方式,生成播报内容


提供下述种方式,生成照片数字人播报内容。

播报内容生成后,单击右侧的“试听”,可以试听播报效果。

语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。

在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。

文本驱动:通过输入文本,选择声音的方式,生成播报内容。不能超过2000字。

单击声音图标,会弹出声音对话框,可以选择需要使用的声音。

无标注的系统声音,均为免费声音,可直接选用。

标注有“第三方”的声音,需要购买激活后才能使用,操作请参考(可选)激活第三方声音

区域

参数

说明

01 请上传您的照片
人像照片

单击“查看示范”,在弹出的“上传照片要求”对话框中,查看照片拍摄要求。

请严格按照要求拍摄并上传照片。照片格式必须为JPG、JPEG、PNG、WEBP,大小不超过16MB,照片比例推荐16:9或9:16。

视频名称

使用照片人像合成视频名称。

02 录入播报内容
选择一种方式,生成播报内容


提供下述种方式,生成照片数字人播报内容。

播报内容生成后,单击右侧的“试听”,可以试听播报效果。

语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。

在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。

文本驱动:通过输入文本,选择声音的方式,生成播报内容。不能超过2000字。

单击声音图标,会弹出声音对话框,可以选择需要使用的声音。

无标注的系统声音,均为免费声音,可直接选用。

标注有“第三方”的声音,需要购买激活后才能使用,操作请参考(可选)激活第三方声音

设置完成后,单击“生成视频”,弹出如图2所示的对话框,显示照片数字人视频的生成进度。

可执行下述操作:

单击图中第一个链接“任务中心-视频”,可进入“任务中心 > 照片数字人”页面,查看任务进度,详情请参见查看任务。

单击图中第二个链接“我的创作-视频”,可进入“我的创作 > 视频”界面,查看已生成的视频,详情请参见查看视频。

图2 照片数字人视频生成进度

等待视频生成完成后,界面会提示“照片数字人视频生成成功”,如图3所示。

用户可以执行如下操作:

  1. 单击视频,预览视频播放效果。
  2. 单击“再次制作”,可再次制作照片数字人视频。
  3. 单击“下载至本地”,下载照片数字人视频至本地。下载后的文件为mp4格式。

图3 照片数字人视频生成成功


为什么选择华为云数字内容生产线

云上一站式自助服务平台,简单高效

云上一站式自助服务平台,简单高效

  • 从模型训练到内容生成,端到端自助服务

  • 支持批量生成数字人训练,任务管理可视化

数字人口型更精准,业界领先

数字人口型更精准,业界领先

  • AI自矫正,口型精准匹配准确率95%+

  • 母语一次训练多语言适配,语言泛化能力强

数字人形象更真实、更自然

数字人形象更真实、更自然

  • AI重打光,人脸与背景融合度高,图像更真实

  • 走动/侧身/持物/实景等复杂场景建模,动作更自然

云底座海量算力资源

云底座海量算力资源

  • 一卡多路并发训练、推理,高效率低成本

  • 提供数字人的API/SDK调用接口,伙伴可集成至自有平台