数字内容生产线 METASTUDIO-视频制作:操作步骤
操作步骤
- 登录MetaStudio控制台,进入MetaStudio服务概览页面。
- 单击“前往MetaStudio工作台”,进入MetaStudio工作台页面。
- 单击“分身视频制作”下方的“开始创建”,进入视频制作界面,详见视频制作界面说明-图1。
- 参考视频制作公共配置,进行视频画面制作。
- 视频素材区域,除了系统预置素材外,角色还可以自定义新增;背景、PPT、贴图、视频和音乐还可以从本地导入使用。
- 从视频素材区域添加至视频预览区域中的PPT、贴图、视频和数字人支持进行图层管理,如:上移一层
、下移一层
、置顶
、置底
、应用到全局
、删除
等。还支持设置大小,拖动位置。
- 单击视频预览区域上方的图标
,可以切换视频画面比例为横屏“16:9”或竖屏“9:16”。
- Flexus分身数字人左上角会有
标识。未带有
标识的数字人均为标准版形象。
需注意Flexus视频制作和标准版视频制作分开计费,从各自的套餐包中扣除费用。
- Flexus视频制作:必须使用Flexus形象,声音使用不受限制。
- 标准版视频制作:必须使用标准版形象,声音不支持使用Flexus声音。
- 按视频制作时长计费,计费项为“分身数字人视频制作”,详见计费说明。
- 系统声音免费使用。第三方声音的计费方式,详见购买出门问问语音合成套餐包。
- 视频语音制作。
支持如下2种方式,可以按场景各选一种方式生成语音。
- 文本驱动
在文本输入框中,输入文本内容,以生成音频,如图1所示。
文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。
文本内容的操作说明如表1所示。不同声音模型对表1中操作的支持情况有差异,所以如果表1中操作项置灰,说明当前声音模型不支持此操作。需要重新选择一个支持所需操作的声音模型进行设置。
表1 操作说明 操作
说明
音色设置
单击音色名称,在弹出的声音对话框中,选择需要的声音。
- 无标注的系统声音,均为免费声音,可直接选用。
- 标注有“第三方”的声音,需要购买激活后才能使用,操作请参考购买出门问问声音套餐。
- 带有
标识的为Flexus声音,仅支持搭配Flexus数字人使用。如果视频为标准版形象,不支持选择Flexus声音进行视频合成。
风格/情感
单击“风格/情感”,在弹出的浮动框中,选择需要的风格/情感类型即可。可以通过试听,查看效果。
须知:
- 仅选择的声音,具备风格/情感音色,才支持设置“风格/情感”。
- 风格/情感须按场景设置,每个场景仅支持设置一种风格/情感类型。
插入动作
插入动作的详细操作说明,请参见插入动作。
插入停顿
将鼠标放在需要停顿的文字右侧,单击“插入停顿”。在弹出的提示框中,选择“换气”或者停顿的时间,也支持自定义停顿时长。
连读
选中需要连读的文本内容,单击“连读”。
多音字
选中文本中的多音字,单击“多音字”,在弹出的提示框中,选择正确的发音或者自定义发音。
这里设置的多音字,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。
别名
选中需要通过别名播报的文本内容 ,单击“别名”,设置为实际播报的内容。
这里设置的别名,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。
数字英文
示例数字“1024”的读法如下所示:
- 数字:一零二四
- 数值:一千零二十四
- 日期:十月二十四
- 电话:幺零二四
示例英文“API”的读法如下所示:
- 字母:API
- 单词:api
音标
选中英文单词,输入合适的音标。也可以单击“音标搜索”,在词典中输入单词搜索,直接复制正确的音标到这里。
局部语速
选中需要变速播报的文本,设置局部语速。
取值范围[0.5x,2x],含义如下所示:
- 0.5x:0.5倍速播报,即减速播报。
- 2x:2倍速播报,即加速播报。
全局语速
设置全局语速。
取值范围[0.5x,2x],含义如下所示:
- 0.5x:0.5倍速播报,即减速播报。
- 2x:2倍速播报,即加速播报。
特殊词表
支持开启或关闭“特殊词表”配置。通过特殊词表配置,可对特定文本设置拼音、音标、连读、别名、数字英文,并一键应用至全局,详见配置特殊词表。
试听
单击“试听”,试听语音效果。
生成预览
单击“生成预览”,选择“当前场景”或“所有场景”,以预览其对应的音频和字幕播放效果。
须知:预览视频为静态页面,需合成视频后,才能查看视频动态播放效果。动作编排效果也不支持预览。
图标
单击
图标,放大展示“文本驱动”页签,提升用户操作体验。
单击“确定”,可关闭页面。
图标
调整视频播报的音量。
图标
字幕设置。开启字幕的操作如下所示,也可查看设置字幕。
- 单击
图标开启字幕。
- 单击“生成预览”,选择“当前场景”或“全部场景”,生成字幕内容和预览视频。
- 画布左侧展示字幕内容,支持修改字幕内容、调整字幕样式。
须知:“音频驱动”方式目前仅支持中文普通话的场景开启字幕。
图标
展示当前视频的宽高比。
图标
第一次单击可折叠“文本驱动/音频驱动”,第二次单击后恢复展示。
- 音频驱动
需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。
可单击“导入”上传音频,也可以直接拖拽本地音频文件至提示区域中,完成上传。单击左侧的
图标,可试听音频效果。如果音频效果不佳,可以单击“导入”,覆盖更新音频。
图2 音频驱动
- 文本驱动
- 音频制作完成后,可单击音量图标,调整音频的音量。
上述操作全部完成后,第一个场景的视频内容制作完成。
- 如需更多场景,可单击“场景”区域的“+”图标,新增场景。制作过程参考第一个场景即可。
如果视频内容是分享PPT,可在“PPT”页签,先从本地导入PPT,再插入需要分享的PPT页,详见PPT。每页PPT会对应生成一个场景,依次设置完成所有场景即可。
- 所有场景设置完成后,单击界面右上角的“合成视频”,弹出“视频合成设置”对话框。
- 单击“确定”,弹出“视频制作任务中心”对话框。
可查看视频合成任务的进度,直至合成成功。
- 单击“合成成功”状态右侧的
图标,进入视频详情页面,如图3所示。
单击“预览”,可以看到合成的视频。预览过程中,可全屏播放,或下载视频到本地。合成视频默认为激活状态,可以单击“取消激活”,取消激活视频资产。
须知:
- MOV格式视频不支持在线预览,需下载至本地,在支持的视频软件中查看。
- 如果视频合成失败,可参考视频合成失败如何处理?处理。
- 可通过如何查看视频制作已购资源包的分钟消耗数?查看视频制作已购资源包的消耗量。
- 视频制作时,如果使用透明背景合成视频,导出时仅支持生成WEBM格式视频。可参考如何将WEBM视频转成MOV格式?转换为MOV格式。