华为云首页用户手册

数字内容生产线 METASTUDIO-视频制作:操作步骤

时间：2025-06-13 09:48:13

数字内容生产线 METASTUDIO

操作步骤

登录MetaStudio控制台，进入MetaStudio服务概览页面。
单击“前往MetaStudio工作台”，进入MetaStudio工作台页面。

单击“分身视频制作”下方的“开始创建”，进入视频制作界面，详见视频制作界面说明-图1。
参考视频制作公共配置，进行视频画面制作。
- 视频素材区域，除了系统预置素材外，角色还可以自定义新增；背景、PPT、贴图、视频和音乐还可以从本地导入使用。
- 从视频素材区域添加至视频预览区域中的PPT、贴图、视频和数字人支持进行图层管理，如：上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小，拖动位置。
- 单击视频预览区域上方的图标，可以切换视频画面比例为横屏“16:9”或竖屏“9:16”。
- Flexus分身数字人左上角会有标识。未带有标识的数字人均为标准版形象。
  需注意Flexus视频制作和标准版视频制作分开计费，从各自的套餐包中扣除费用。
  - Flexus视频制作：必须使用Flexus形象，声音使用不受限制。
    - 按视频制作时长计费，计费项为“Flexus分身数字人视频制作”，详见计费说明。
    - 系统声音和Flexus声音免费使用。第三方声音的计费方式，详见购买出门问问语音合成套餐包。
  - 标准版视频制作：必须使用标准版形象，声音不支持使用Flexus声音。
    - 按视频制作时长计费，计费项为“分身数字人视频制作”，详见计费说明。
    - 系统声音免费使用。第三方声音的计费方式，详见购买出门问问语音合成套餐包。

视频语音制作。

支持如下2种方式，可以按场景各选一种方式生成语音。

文本驱动

在文本输入框中，输入文本内容，以生成音频，如图1所示。

文本示例：今天是9月26日，星期二，天气晴朗，欢迎大家到访。我们精心布置了现场，室内摆放了各类植物和鲜花，场地宽敞明亮，足够大家在室内共同交流和活动。

图1 文本驱动

文本内容的操作说明如表1所示。不同声音模型对表1中操作的支持情况有差异，所以如果表1中操作项置灰，说明当前声音模型不支持此操作。需要重新选择一个支持所需操作的声音模型进行设置。

表1 操作说明
操作	说明
音色设置	单击音色名称，在弹出的声音对话框中，选择需要的声音。无标注的系统声音，均为免费声音，可直接选用。标注有“第三方”的声音，需要购买激活后才能使用，操作请参考购买出门问问声音套餐。带有标识的为Flexus声音，仅支持搭配Flexus数字人使用。如果视频为标准版形象，不支持选择Flexus声音进行视频合成。
风格/情感	单击“风格/情感”，在弹出的浮动框中，选择需要的风格/情感类型即可。可以通过试听，查看效果。须知：仅选择的声音，具备风格/情感音色，才支持设置“风格/情感”。风格/情感须按场景设置，每个场景仅支持设置一种风格/情感类型。
插入动作	插入动作的详细操作说明，请参见插入动作。
插入停顿	将鼠标放在需要停顿的文字右侧，单击“插入停顿”。在弹出的提示框中，选择“换气”或者停顿的时间，也支持自定义停顿时长。
连读	选中需要连读的文本内容，单击“连读”。
多音字	选中文本中的多音字，单击“多音字”，在弹出的提示框中，选择正确的发音或者自定义发音。这里设置的多音字，仅对当前视频草稿有效，如需全局生效，可参考配置特殊词表配置。
别名	选中需要通过别名播报的文本内容，单击“别名”，设置为实际播报的内容。这里设置的别名，仅对当前视频草稿有效，如需全局生效，可参考配置特殊词表配置。
数字英文	示例数字“1024”的读法如下所示：数字：一零二四数值：一千零二十四日期：十月二十四电话：幺零二四示例英文“API”的读法如下所示：字母：API 单词：api
音标	选中英文单词，输入合适的音标。也可以单击“音标搜索”，在词典中输入单词搜索，直接复制正确的音标到这里。
局部语速	选中需要变速播报的文本，设置局部语速。取值范围[0.5x，2x]，含义如下所示： 0.5x：0.5倍速播报，即减速播报。 2x：2倍速播报，即加速播报。
全局语速	设置全局语速。取值范围[0.5x，2x]，含义如下所示： 0.5x：0.5倍速播报，即减速播报。 2x：2倍速播报，即加速播报。
特殊词表	支持开启或关闭“特殊词表”配置。通过特殊词表配置，可对特定文本设置拼音、音标、连读、别名、数字英文，并一键应用至全局，详见配置特殊词表。
试听	单击“试听”，试听语音效果。
生成预览	单击“生成预览”，选择“当前场景”或“所有场景”，以预览其对应的音频和字幕播放效果。须知：预览视频为静态页面，需合成视频后，才能查看视频动态播放效果。动作编排效果也不支持预览。
图标	单击图标，放大展示“文本驱动”页签，提升用户操作体验。单击“确定”，可关闭页面。
图标	调整视频播报的音量。
图标	字幕设置。开启字幕的操作如下所示，也可查看设置字幕。单击图标开启字幕。单击“生成预览”，选择“当前场景”或“全部场景”，生成字幕内容和预览视频。如果是“文本驱动”直接提取文本生成字幕内容。如果是“音频驱动”，会将音频转化为文本后，再生成字幕内容。画布左侧展示字幕内容，支持修改字幕内容、调整字幕样式。须知：“音频驱动”方式目前仅支持中文普通话的场景开启字幕。
图标	展示当前视频的宽高比。
图标	第一次单击可折叠“文本驱动/音频驱动”，第二次单击后恢复展示。

音频驱动
需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A，大小不能超过100M。

可单击“导入”上传音频，也可以直接拖拽本地音频文件至提示区域中，完成上传。单击左侧的图标，可试听音频效果。如果音频效果不佳，可以单击“导入”，覆盖更新音频。

图2 音频驱动

音频制作完成后，可单击音量图标，调整音频的音量。

上述操作全部完成后，第一个场景的视频内容制作完成。
如需更多场景，可单击“场景”区域的“+”图标，新增场景。制作过程参考第一个场景即可。

如果视频内容是分享PPT，可在“PPT”页签，先从本地导入PPT，再插入需要分享的PPT页，详见PPT。每页PPT会对应生成一个场景，依次设置完成所有场景即可。

所有场景设置完成后，单击界面右上角的“合成视频”，弹出“视频合成设置”对话框。

参数说明如表2所示。

表2 参数说明
参数	说明
导出为	输入导出文件的名称。
格式	合成视频的格式，默认为MP4格式。如果视频背景选择透明背景，还支持导出为MOV格式。但是MOV格式导出功能默认不开放，需提交工单申请使用权限后，才会展示出来。且合成MOV格式视频有如下限制：文本驱动所有场景不超过1500字符。音频驱动所有场景的音频总时长不超过5分钟。导出的MOV视频，不支持在MetaStudio控制台查看，需导出至本地后，在支持的视频软件中查看。
分辨率	选择合适的视频分辨率。
画质增强	开启后将提升视频清晰度，但合成的时间会相应变长。请根据实际情况确定是否开启。

单击“确定”，弹出“视频制作任务中心”对话框。

可查看视频合成任务的进度，直至合成成功。
单击“合成成功”状态右侧的图标，进入视频详情页面，如图3所示。

单击“预览”，可以看到合成的视频。预览过程中，可全屏播放，或下载视频到本地。合成视频默认为激活状态，可以单击“取消激活”，取消激活视频资产。

须知：
- MOV格式视频不支持在线预览，需下载至本地，在支持的视频软件中查看。
- 如果视频合成失败，可参考视频合成失败如何处理？处理。
- 可通过如何查看视频制作已购资源包的分钟消耗数？查看视频制作已购资源包的消耗量。
- 视频制作时，如果使用透明背景合成视频，导出时仅支持生成WEBM格式视频。可参考如何将WEBM视频转成MOV格式？转换为MOV格式。
  图3 视频详情