数字内容生产线 METASTUDIO-华为云

数字内容生产线 METASTUDIO-购买资源:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。图1 控制台页面资源购买入口有两个，用户可以选择其中一种方式进行购买。单击“购买资源”，进入“购买MetaStudio服务”页面，如图2所示。单击服务列表中，具体产品分类右侧的“购买”，进入“购买MetaStudio服务”页面，如图2所示。 “产品分类”中高亮展示的是SP用户可购买的资源包类型，置灰展示的是未对SP用户开放的资源包类型。图2 购买页面 SP用户根据实际情况，选择需要的产品分类、计费模式和购买数量，单击“去购买”。进入“规格详情”页面，如图3所示。图3 规格详情阅读并勾选“我已阅读并同意《MetaStudio服务使用声明》《华为云隐私政策声明》”后，单击“去支付”。进入订单生成页面，如图4所示。图4 订单生成页面查看云服务订单，并选择付款方式，单击“确认付款”。订单支付成功后，返回如图5所示的页面，说明资源购买成功。图5 订单支付成功

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-客户声音制作案例

客户声音制作案例单击声音样例.zip，下载如表1所示的音频文件。 mos分是从音色相似度、情感表达效果和声音音质方面，进行整体效果综合评分的结果。表1 音频文件版本类别原音文件合成音文件版本差异适用场景基础版声音制作女声基础版媒体1.wav 基础版媒体2.wav 支持手机录制20条语料音频（5分钟），1-3天制作，快速获得类真人音色，mos分3.8。短视频制作进阶版声音制作女声进阶版媒体1.wav 进阶版媒体2.wav 支持手机录制100条语料音频（15分钟），1-3天制作，获得高还原度音色，mos分4.0。直播、培训视频、智能交互高级版声音制作女声高级版媒体1.wav 高级版媒体2.wav 录音棚专业设备录制60分钟音频，3-5天制作，支持多轮人工调整，获得现场级高品质音色，mos分4.2。父主题：附录

数字内容生产线 METASTUDIO 附录

数字内容生产线 METASTUDIO-购买套餐:操作步骤

操作步骤访问云商店语音合成商品页面，进入云商店的“语音合成”商品购买页面。用户可以在界面下方查看商品详情，确定要购买的商品规格。图1 云商店选择“语音合成体验套餐”，单击“立即购买”，进入购买页面。下面以购买“语音合成体验套餐”为例，进行操作说明。图2 订单确认页面阅读并勾选所有协议和相关授权，单击“去支付”，进入订单支付页面。图3 订单支付页面按照界面提示，选择您的付款方式，完成支付即可。订单支付成功后，进入如图4所示的界面。图4 订单支付成功

数字内容生产线 METASTUDIO 购买第三方声音

数字内容生产线 METASTUDIO-视频制作:操作步骤

操作步骤登录MetaStudio控制台。在“工作台”界面，单击“分身视频制作”下方的“开始创建”。进入视频制作界面，界面详情如图1所示。操作说明如下所示：视频素材区域，除了系统预置素材外，角色还可以自定义新增分身数字人，背景、PPT、贴图、视频和音乐还可以从本地导入使用。从视频素材区域添加到画布区域中的PPT、贴图、视频和数字人支持进行图层管理，如：上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小，拖动位置。可以单击画布区域右下方的图标，切换视频的分辨率为横屏“16:9”或竖屏“9:16”。画布制作完成后，需要制作语音。支持下述2种方式生成语音。每个场景仅支持选择一种音频生成方式。文本驱动在文本输入框中，输入文本内容，以生成音频，如图1所示。文本示例：今天是9月26日，星期二，天气晴朗，欢迎大家到访。我们精心布置了现场，室内摆放了各类植物和鲜花，场地宽敞明亮，足够大家在室内共同交流和活动。图1 文本驱动文本内容的操作说明如表1所示。表1 操作说明操作说明插入停顿将鼠标放在需要停顿的文字右侧，单击“插入停顿”。在弹出的提示框中，选择“换气”或者停顿的时间间隔，实现阅读的停顿。多音字如果文字存在多个发音，可选中文字，单击“多音字”，在弹出的提示框中，选择正确的发音。局部语速选中需要设置语速的文字段，设置局部语速。取值范围为[0.5x，2x]，含义如下所示： 0.5x：音频使用0.5倍速播放，即减速播放。 2x：音频使用2倍速播放，即加速播放。全局语速设置全局语速。取值范围为[0.5x，2x]，含义如下所示： 0.5x：音频使用0.5倍速播放，即减速播放。 2x：音频使用2倍速播放，即加速播放。亲切女声默认为“亲切女声”。如需更换声音，可单击“亲切女声”，在弹出的对话框中，选择需要的声音。无标注的系统声音，均为免费声音，可直接选用。标注有“第三方”的声音，需要购买激活后才能使用，操作请参考购买第三方声音。试听单击“试听”，可试听语音效果。图标单击图标，放大展示“文本驱动”页签，提升用户操作体验。单击“确定”，可关闭页面。图标调整视频播报的音量。图标单击图标，在视频中添加字幕。仅文本驱动的方式，支持开启字幕功能。音频驱动方式，暂不支持。图标展示当前视频的分辨率。图标第一次单击可收起“文本驱动/视频驱动”板块的配置，第二次单击后恢复展示。音频驱动需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A，大小不能超过100M。可单击“导入”上传，或直接拖拽本地音频文件至提示区域中，完成上传。单击图标，可试听音频效果。图2 音频驱动音频制作完成后，可单击“音量”，调整音频的音量。上述操作全部完成后，第一个场景的视频内容已制作完成。如果还需要制作更多场景，可单击“场景”区域的“+”图标，新增场景。制作过程参考第一个场景即可。如果视频内容是分享PPT，可在“PPT”页签，先从本地导入PPT，再插入需要分享的PPT页。每页PPT会对应生成一个场景，依次设置完成所有场景即可。所有场景均设置完成后，单击界面右上角的“合成视频”，弹出“合成设置”对话框。参数设置说明如下所示：分辨率：根据实际情况，选择视频的分辨率。导出为：输入导出文件的名称。单击“确定”，弹出“视频制作任务中心”对话框。可查看视频合成任务的进度，直至合成成功。单击“合成成功”状态右侧的图标，进入资产详情页面，如图3所示。单击“预览”，可以看到合成的视频。预览过程中，可全屏播放，或下载视频到本地。图3 视频详情如果用户对合成的视频不满意，可以参考下述步骤，进行二次制作，重新合成。在左侧导航栏中，选择“工作台”。在“最近项目”区域，选择“视频项目”页签后，右侧页签选择“视频草稿”，查看视频草稿列表，如图4所示。图4 视频项目将鼠标移至卡片的文字描述区域，单击“编辑视频”，如图5所示。进入视频编辑界面，更新视频内容，重新合成视频。图5 我的视频

数字内容生产线 METASTUDIO 视频制作

数字内容生产线 METASTUDIO-租户操作:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。如果SP用户已为当前租户分配了可用的资源，租户无需再从服务列表中购买资源了。图1 控制台页面在左侧导航栏中，选择“资源管理”，进入“资源管理”页面，如图2所示。用户可以看到每种资源，已分配的资源总量、可用剩余量、创建时间和到期时间。图2 资源管理在左侧导航栏中，选择“服务概览”，回到MetaStudio控制台主页面。单击“前往MetaStudio”，进入MetaStudio工作台，可以参考用户指南手册，进行相关操作了。

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-关联租户:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。图1 控制台页面在左侧导航栏中，选择“租户管理”，进入“租户列表”页面。单击“关联租户”，进入“关联租户”页面，如图2所示。参数说明如下所示：租户id：请输入项目ID，获取方式如获取项目ID所示。租户的项目ID必须与SP用户申请成为SP用户时，提供的项目ID所在Region保持一致。租户名称：输入自定义租户名称，方便SP用户识别租户身份即可。图2 关联租户单击“创建”，租户创建完成，如图3所示。图3 租户列表如需取消关联，可单击右侧的“取消关联”，在弹出的“取消关联租户提示”对话框中，单击“确定”。租户取消成功后，租户未使用的资源将被收回。

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-真人声音录制:开始录音

开始录音表2 录音注意事项录音事项说明话筒间距调整与麦克风之间的距离，以一拳距离为宜。不宜离麦太近，防止喷麦或录入呼吸声。录音内容每句文案起始数字编号无需阅读。示例：4. 它不仅拥有出色的功能，还具备卓越的性能，序号4无需阅读。音频格式推荐使用无损音质格式保存音频文件，如WAV格式。原始录音数据，需未经MP3等编码器编码，且为48kHz采样率、16bit编码和单声道。录制风格全程风格保持一致。如直播场景时，录制风格需接近日常直播效果。发音吐字发音吐字清晰、准确，音量适中。如果出现喷麦或嘶嘶声音，建议当前句子重新录制。语速节奏语速自然、平稳，切忌过快过慢、忽快忽慢。音量适中音量不能过小、过大、或忽大忽小，甚至削波爆音。峰值RMS在-9左右，无削波。停顿断句在标点或适当断句处自然停顿，需轻声换气。如果录制一个长音频文件时，每句之间需要有2~3秒的停顿。重音位置重音位置要合理，避免错误的重音。阅读发音按顺序读，确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题，需整句重新录制。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:录音准备

录音准备表1 录音准备声音类型录制设备和软件录音环境录音文案基础版优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。同一批录音必须使用同一套录制设备和环境。建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。支持自定义文案，单句文案长短需和样例相当。每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。进阶版高品质专业录音棚+高保真MIC录制。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:录制内容提交规范

录制内容提交规范表3 录音提交内容规范声音类型音频说明音频命名基础版支持整段录制或按句录制，详细说明如•（推荐）方式一：整段录制、•方式二：按句录制和•方式三：使用自定义语料按句录制所示。符合手机录制音频-表1中“音频命名”的要求。进阶版高品质仅支持整段录制，详细说明如•（推荐）方式一：整段录制所示。音频文件命名无要求，可自定义，示例：VoiceClone.wav。（推荐）方式一：整段录制所有语料录制成一个长音频WAV文件，每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台，无需压缩，无需提供语料txt文件。推荐使用服务预置语料，也可自定义语料。系统会自动根据停顿做切割，自动进行文本识别。方式二：使用预置语料按句录制每个音频文件时长约10秒，不能超过15秒，否则会导致声音模型训练失败。使用预置语料，创建声音制作任务的时候，必须选对声音标签。并将所有音频文件压缩成一个zip文件，示例如图1所示。系统会自动匹配预置文本。图1 音频压缩文件示例方式三：使用自定义语料按句录制每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。每个音频文件需要匹配一个文本txt文件，且音频内容必须与文本内容完全一致，示例如图2所示。系统会自动使用传入的文本匹配音频。图2 音频压缩文件示例

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:制作声音模型

制作声音模型准备好音频文件后，就可以上传至MetaStudio控制台，进行声音训练。详细操作如下所示：创建声音制作任务查看声音声音模型制作耗时，如下所示：基础版：约1~3个工作日。进阶版：约1~3个工作日。高品质：约5个工作日。自定义声音应用方式，如下所示：自定义声音生成后，会自动展示在MetaStudio控制台声音列表中，可用于分身数字人视频制作、视频直播或智能交互等场景中。通过MetaStudio的API调用自定义声音。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-分配资源:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。图1 控制台页面在左侧导航栏中，选择“租户管理”，进入“租户列表”页面，如图2所示。图2 租户列表单击租户名称右侧的“分配”，弹出“分配资源”对话框，如图3所示。用户需要参考表1进行配置，如果需要分配多种资源类型，可单击右侧的图标，新增资源行。图3 分配资源表1 参数说明参数说明请选择资源类型从下拉框中选择已购买的资源类型。示例：分身数字人形象制作。请选择资源实例从下拉框中选择已购买的资源实例。示例：分身数字人形象制作 - 2023-11-14。请选择资源数量设置资源数量，不能超过所选资源实例包含的个数。示例：5。请选择日期选择当前租户使用已分配资源的有效截止日期，超出此日期后，资源自动释放回资源包中。SP用户可再次分配给租户使用。单击“确定”。在“租户列表”页面，查看分配效果，如图4所示。以506租户的“分身形象制作（个）”列为例，“5 / 5”中第一个5说明当前资源实例分配了5个分身形象制作资源给当前租户；第二个5的含义为当前租户还剩余5个分身形象制作资源可用。图4 租户列表如需收回当前租户的资源，可单击租户右侧的“查看详情”，进入“租户详情”页面，如图5所示。在下方的“资源列表”中，可以找到已分配的“分身数字人形象制作”资源。图5 租户详情单击资源右侧的“回收”，弹出“回收资源”对话框，如图6所示。可以看到资源名称、可回收量、分配时间和到期时间。图6 回收资源根据实际情况，设置本次需要回收的数量（示例：2），单击“确定”。界面右上角提示“回收成功”，租户未使用的这些资源将被收回。在“租户详情”页面的“资源列表”中可以看到，“分身数字人形象制作”的总量和可用量均从5降至3了。图7 租户详情

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-视频直播:操作步骤

操作步骤登录MetaStudio控制台。在“工作台”界面，单击“分身视频直播”下方的“开始创建”。进入分身数字人直播首页面，如图1所示。图1 分身视频直播首页面在“直播管理”页签，单击“创建直播间”，进入视频直播制作界面。界面详情如视频直播界面说明所示，对应操作说明如下所示：除了系统预置的视频素材外，角色还可以自定义定制分身数字人，背景、贴图、视频还支持从本地导入使用。从素材区域添加到视频直播区域中的贴图、视频和数字人支持进行图层管理，如：上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小，拖动位置。视频直播画面创作完成后，请根据实际情况，选择一种剧本驱动方式。 “剧本驱动”包含下述3种方式：文本驱动需要通过文本来驱动数字人说话。支持下述2种方式，增加文本内容。直接在各个场景的段落框中输入文本内容。可单击图标，增加更多的场景或段落。单击右上方的“导入”，从本地导入文本文件。文件必须为txt格式，字数不少于200字；如果多个段落，可通过换行来实现。手工输入文本示例，如下所示：请注意，当前仅为效果演示，实际一个段落需要满足至少200字，不多于2000字的要求。段落1.1：大家好，今天欢迎来到会议室，我们今天讨论的主题是：如何更好的学习和工作。段落1.2：我们每个人都有自己的学习和工作，难免会遇到一些问题。当我们遇到问题的时候，应该如何解决的呢？图2 文本驱动文本内容的操作说明如表1所示。表1 操作说明操作说明全局声音（主播）全局声音为直播间中的数字人主播使用的声音。有默认声音，用户也可以根据实际情况选择其他声音。如果需要使用标注“第三方”的系统声音，请参考购买第三方声音进行操作。直播女生（助播）直播间的数字人为主播，这是助播的声音。在开播后的界面，可以单击如图3所示的图标，切换到助播声音，再输入互动内容，通过助播声音播放互动内容。试听单击“试听”，可以试听当前所有场景下文字内容。也可以单击具体段落区域的试听图标，试听当前段落的内容。场景操作支持对场景，执行下述操作：：设置主播声音。：复制当前场景，新增一个相同场景。：修改场景名称，默认值为“场景1”。：删除当前场景。：移动场景的位置。：新增1个空白段落。段落操作支持对段落，执行下述操作：：使用主播声音播报当前段落内容。：修改段落名称，默认值为“段落1.1”。：复制当前段落，新增一个相同段落。：删除当前段落。：移动段落的位置。图3 开播界面音频驱动单击“上传音频”，从本地上传已录制好的音频，如图4所示。每个音频不能超过100M，支持WAV、M4A和MP3格式，每个场景的音频总时长不能低于1分钟。图4 音频驱动音频上传完成后，单击“试听”，可试听音频。用户也可以根据实际情况设置主播和助播的声音。开播后可单击如图5所示的图标，切换到主播或者助播的声音，再发送互动内容，系统会使用所选声音播报互动内容。图5 开播页面即兴直播无需设置剧本，直接开播，界面如图6所示。开播后数字人保持静默，需要发送互动内容或者通过真人接管，驱动数字人说话。图6 即兴直播如果还需要制作多场景，即切换多个背景及其展示的内容，可以单击右侧“场景”区域下方的“+”图标，新增场景，并参考前一个场景，设置生成下一个场景的画面布局和剧本内容。所有场景的画面布局和剧本设置完成后，单击界面右侧的“互动设置”页签，如图7所示。包含如下4类设置：弹幕用户入场点赞送礼上面4类设置的操作基本相同，下面以弹幕为例，进行操作说明，详情参见表2。用户也可以直接导入已有的互动库使用，如互动管理所示。图7 互动设置表2 弹幕设置说明参数配置说明间隔时间同一条弹幕规则重复触发的间隔时间，每条规则的触发时间互不影响。默认值：120秒，不能小于60秒。添加互动单击“添加互动”，界面下方新增一条语料，如图7所示。用户可以根据实际情况，添加多条语料。第一行输入框中，需要输入触发关键词，如果有多个，请以“|”分隔。即服务扫描弹幕的时候，如果扫描到此关键词，自动回复当前语料内容。示例：链接|型号|优惠第二行输入框中，需要输入相应的回复内容。示例：关于产品的链接、型号和优惠等问题，请看界面上方的说明，按照说明操作，就可以详细了解了。单击界面右侧的“直播配置”页签，如图8所示。直播配置说明，如表3所示。图8 我的视频表3 直播配置区域参数说明开播设置选择开播方式（二选一）请根据实际情况，选择一种开播方式，并按照界面提示进行操作。输出设置直播画面选择视频直播画面的清晰度。包含如下选项：流畅高清超清默认值：高清。播放次数支持直接设置播放的次数，也可以选择“无限循环”。风控设置主播轮换如果视频场景存在多场景，支持开启主播轮换，最多支持选择5个主播，以实现每轮场景更换时，相应的更换主播形象。须知：前面操作过程中，各个场景均已设置了相应的主播，即原主播；如果这里开启了“主播轮换”，且选择了主播，即备主播；那么直播时，可能随机选择原主播和备主播进行播放。所以直播画面的主播不一定是这里设置的备主播。随机播放仅“播放次数”选择“无限循环”时展示此参数。如果开启随机播放，支持设置“随机规则”，包含如下选项：按场景随机：视频直播过程中，随机选取任一场景进行播放，且确保场景不重复播放。场景中的段落仍按顺序播放。按段落随机：视频直播过程中，场景播放顺序不变，场景内的段落随机进行播放，且确保段落不重复播放。场景和段落都随机：视频直播过程中，随机选取任一场景中的任一段落进行播放，且确保所有场景的各个段落不重复播放。更多设置直播间ID 无需设置，当前视频直播保存后展示。上述操作完成后，需要单击界面右上角的图标，保存直播内容。单击界面右下方的“准备直播”，准备开播。即兴直播方式，无需执行本步骤的下述子步骤。弹出“风险提示”对话框，如图9所示。用户需要参照风险提示项，逐一核查并优化视频直播内容。图9 风险提示用户可以等直播风险消除后，再开播，也可以选择“承担风险开播”。在“直播窗口”对话框中，选择“竖屏”或“全屏”，如图10所示。图10 直播窗口单击“继续”，等待直播启动。直播启动成功后，视频制作界面的直播画面区域，会展示直播启动的进度。开播后的效果如图11所示。界面右下方的操作说明，如表4所示。图11 开播页面表4 界面说明界面元素说明 00:01:20 直播计时，当前已直播1分20秒。切换互动内容播报的声音。默认为主播声音，可以切换为助播声音。用户设置的互动内容列表，单击选择后发送，数字人会播报。请输入互动内容，回车发送内容输入互动内容，并发送成功后，主播或助播进行互动内容插播。插播结束后，继续播报原有内容。真人接管单击“真人接管”，开启真人接管功能。数字人停止发声，仅保留动作，改由真人发声。真人发声结束后，单击“取消真人接管”，关闭真人接管功能，继续播报原有内容。暂停单击“暂停”，暂停播报。单击“继续”，可恢复播报。停止单击“停止”，停止视频直播。

数字内容生产线 METASTUDIO 视频直播

数字内容生产线 METASTUDIO-激活资源:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。图1 控制台页面单击左侧的“资源管理”，进入“资源管理”页面，如图2所示。图2 资源管理单击“分身数字人形象制作”右侧的“激活”，弹出“激活资源”对话框，如图3所示。可以看到资源名称、总量、可激活数量和激活截止时间。可以自主设置激活资源的数量，无需一次性全部激活。图3 激活资源根据实际情况，设置本次需要激活的数量，单击“确定”。界面右上角提示“激活成功”，激活成功。

数字内容生产线 METASTUDIO 成为SP用户

数字内容生产线 METASTUDIO-第三方平台直播画面突然中断是怎么回事？

第三方平台直播画面突然中断是怎么回事？可能是MetaStudio控制台自动退出登录导致。排查和修改方法，如下所示：在MetaStudio控制台直播间开播成功时，需要参考图1，单击URL地址右侧的拦截图标，从下拉框中选择允许弹出窗口。图1 直播间开播单击“完成”，会新增弹出如图2和图3所示的2个浏览器窗口。 MetaStudio控制台超过10分钟不操作，默认会退出登录，导致第三方直播平台的直播画面也中断。需要确保图3的窗口始终是打开的，直播过程中一定不能关闭，这样第三方直播平台的直播才能顺利完成。图2 直播窗口图3 确保直播过程不中断的窗口父主题： FAQ

数字内容生产线 METASTUDIO FAQ

数字内容生产线 METASTUDIO-第三方平台直播画面突然中断是怎么回事？

第三方平台直播画面突然中断是怎么回事？可能是MetaStudio控制台自动退出登录导致。排查和修改方法，如下所示：在MetaStudio控制台直播间开播成功时，需要参考图1，单击URL地址右侧的拦截图标，从下拉框中选择允许弹出窗口。图1 直播间开播单击“完成”，会新增弹出如图2和图3所示的2个浏览器窗口。 MetaStudio控制台超过10分钟不操作，默认会退出登录，导致第三方直播平台的直播画面也中断。需要确保图3的窗口始终是打开的，直播过程中一定不能关闭，这样第三方直播平台的直播才能顺利完成。图2 直播窗口图3 确保直播过程不中断的窗口父主题：视频直播

数字内容生产线 METASTUDIO 视频直播

云服务器内容精选

数字内容生产线 METASTUDIO

7*24

备案

专业服务

退订

建议反馈

售前咨询热线