云服务器内容精选

  • 操作步骤 登录MetaStudio控制台,如图1所示。 图1 控制台页面 资源购买入口有两个,用户可以选择其中一种方式进行购买。 单击“购买资源”,进入“购买MetaStudio服务”页面,如图2所示。 单击服务列表中,具体产品分类右侧的“购买”,进入“购买MetaStudio服务”页面,如图2所示。 “产品分类”中高亮展示的是SP用户可购买的资源包类型,置灰展示的是未对SP用户开放的资源包类型。 图2 购买页面 SP用户根据实际情况,选择需要的产品分类、计费模式和购买数量,单击“去购买”。 进入“规格详情”页面,如图3所示。 图3 规格详情 阅读并勾选“我已阅读并同意《MetaStudio服务使用声明》《华为云隐私政策声明》”后,单击“去支付”。 进入订单生成页面,如图4所示。 图4 订单生成页面 查看云服务订单,并选择付款方式,单击“确认付款”。 订单支付成功后,返回如图5所示的页面,说明资源购买成功。 图5 订单支付成功
  • 客户声音制作案例 单击声音样例.zip,下载如表1所示的音频文件。 mos分是从音色相似度、情感表达效果和声音音质方面,进行整体效果综合评分的结果。 表1 音频文件 版本 类别 原音文件 合成音文件 版本差异 适用场景 基础版声音制作 女声 基础版媒体1.wav 基础版媒体2.wav 支持手机录制20条语料音频(5分钟),1-3天制作,快速获得类真人音色,mos分3.8。 短视频制作 进阶版声音制作 女声 进阶版媒体1.wav 进阶版媒体2.wav 支持手机录制100条语料音频(15分钟),1-3天制作,获得高还原度音色,mos分4.0。 直播、培训视频、智能交互 高级版声音制作 女声 高级版媒体1.wav 高级版媒体2.wav 录音棚专业设备录制60分钟音频,3-5天制作,支持多轮人工调整,获得现场级高品质音色,mos分4.2。 父主题: 附录
  • 操作步骤 访问云商店语音合成商品页面,进入云商店的“语音合成”商品购买页面。 用户可以在界面下方查看商品详情,确定要购买的商品规格。 图1 云商店 选择“语音合成体验套餐”,单击“立即购买”,进入购买页面。 下面以购买“语音合成体验套餐”为例,进行操作说明。 图2 订单确认页面 阅读并勾选所有协议和相关授权,单击“去支付”,进入订单支付页面。 图3 订单支付页面 按照界面提示,选择您的付款方式,完成支付即可。 订单支付成功后,进入如图4所示的界面。 图4 订单支付成功
  • 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“分身视频制作”下方的“开始创建”。 进入视频制作界面,界面详情如图1所示。操作说明如下所示: 视频素材区域,除了系统预置素材外,角色还可以自定义新增分身数字人,背景、PPT、贴图、视频和音乐还可以从本地导入使用。 从视频素材区域添加到画布区域中的PPT、贴图、视频和数字人支持进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小,拖动位置。 可以单击画布区域右下方的图标,切换视频的分辨率为横屏“16:9”或竖屏“9:16”。 画布制作完成后,需要制作语音。 支持下述2种方式生成语音。每个场景仅支持选择一种音频生成方式。 文本驱动 在文本输入框中,输入文本内容,以生成音频,如图1所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。 图1 文本驱动 文本内容的操作说明如表1所示。 表1 操作说明 操作 说明 插入停顿 将鼠标放在需要停顿的文字右侧,单击“插入停顿”。在弹出的提示框中,选择“换气”或者停顿的时间间隔,实现阅读的停顿。 多音字 如果文字存在多个发音,可选中文字,单击“多音字”,在弹出的提示框中,选择正确的发音。 局部语速 选中需要设置语速的文字段,设置局部语速。 取值范围为[0.5x,2x],含义如下所示: 0.5x:音频使用0.5倍速播放,即减速播放。 2x:音频使用2倍速播放,即加速播放。 全局语速 设置全局语速。 取值范围为[0.5x,2x],含义如下所示: 0.5x:音频使用0.5倍速播放,即减速播放。 2x:音频使用2倍速播放,即加速播放。 亲切女声 默认为“亲切女声”。 如需更换声音,可单击“亲切女声”,在弹出的对话框中,选择需要的声音。 无标注的系统声音,均为免费声音,可直接选用。 标注有“第三方”的声音,需要购买激活后才能使用,操作请参考购买第三方声音。 试听 单击“试听”,可试听语音效果。 图标 单击图标,放大展示“文本驱动”页签,提升用户操作体验。 单击“确定”,可关闭页面。 图标 调整视频播报的音量。 图标 单击图标,在视频中添加字幕。 仅文本驱动的方式,支持开启字幕功能。音频驱动方式,暂不支持。 图标 展示当前视频的分辨率。 图标 第一次单击可收起“文本驱动/视频驱动”板块的配置,第二次单击后恢复展示。 音频驱动 需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。 可单击“导入”上传,或直接拖拽本地音频文件至提示区域中,完成上传。单击图标,可试听音频效果。 图2 音频驱动 音频制作完成后,可单击“音量”,调整音频的音量。 上述操作全部完成后,第一个场景的视频内容已制作完成。 如果还需要制作更多场景,可单击“场景”区域的“+”图标,新增场景。制作过程参考第一个场景即可。 如果视频内容是分享PPT,可在“PPT”页签,先从本地导入PPT,再插入需要分享的PPT页。每页PPT会对应生成一个场景,依次设置完成所有场景即可。 所有场景均设置完成后,单击界面右上角的“合成视频”,弹出“合成设置”对话框。 参数设置说明如下所示: 分辨率:根据实际情况,选择视频的分辨率。 导出为:输入导出文件的名称。 单击“确定”,弹出“视频制作任务中心”对话框。 可查看视频合成任务的进度,直至合成成功。 单击“合成成功”状态右侧的图标,进入资产详情页面,如图3所示。 单击“预览”,可以看到合成的视频。预览过程中,可全屏播放,或下载视频到本地。 图3 视频详情 如果用户对合成的视频不满意,可以参考下述步骤,进行二次制作,重新合成。 在左侧导航栏中,选择“工作台”。 在“最近项目”区域,选择“视频项目”页签后,右侧页签选择“视频草稿”,查看视频草稿列表,如图4所示。 图4 视频项目 将鼠标移至卡片的文字描述区域,单击“编辑视频”,如图5所示。 进入视频编辑界面,更新视频内容,重新合成视频。 图5 我的视频
  • 操作步骤 登录MetaStudio控制台,如图1所示。 如果SP用户已为当前租户分配了可用的资源,租户无需再从服务列表中购买资源了。 图1 控制台页面 在左侧导航栏中,选择“资源管理”,进入“资源管理”页面,如图2所示。 用户可以看到每种资源,已分配的资源总量、可用剩余量、创建时间和到期时间。 图2 资源管理 在左侧导航栏中,选择“服务概览”,回到MetaStudio控制台主页面。 单击“前往MetaStudio”,进入MetaStudio工作台,可以参考用户指南手册,进行相关操作了。
  • 操作步骤 登录MetaStudio控制台,如图1所示。 图1 控制台页面 在左侧导航栏中,选择“租户管理”,进入“租户列表”页面。 单击“关联租户”,进入“关联租户”页面,如图2所示。 参数说明如下所示: 租户id:请输入项目ID,获取方式如获取项目ID所示。租户的项目ID必须与SP用户申请成为SP用户时,提供的项目ID所在Region保持一致。 租户名称:输入自定义租户名称,方便SP用户识别租户身份即可。 图2 关联租户 单击“创建”,租户创建完成,如图3所示。 图3 租户列表 如需取消关联,可单击右侧的“取消关联”,在弹出的“取消关联租户提示”对话框中,单击“确定”。 租户取消成功后,租户未使用的资源将被收回。
  • 开始录音 表2 录音注意事项 录音事项 说明 话筒间距 调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 录音内容 每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。 音频格式 推荐使用无损音质格式保存音频文件,如WAV格式。 原始录音数据,需未经MP3等编码器编码,且为48kHz采样率、16bit编码和单声道。 录制风格 全程风格保持一致。如直播场景时,录制风格需接近日常直播效果。 发音吐字 发音吐字清晰、准确,音量适中。如果出现喷麦或嘶嘶声音,建议当前句子重新录制。 语速节奏 语速自然、平稳,切忌过快过慢、忽快忽慢。 音量适中 音量不能过小、过大、或忽大忽小,甚至削波爆音。峰值RMS在-9左右,无削波。 停顿断句 在标点或适当断句处自然停顿,需轻声换气。 如果录制一个长音频文件时,每句之间需要有2~3秒的停顿。 重音位置 重音位置要合理,避免错误的重音。 阅读发音 按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需整句重新录制。
  • 录音准备 表1 录音准备 声音类型 录制设备和软件 录音环境 录音文案 基础版 优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。 如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。 同一批录音必须使用同一套录制设备和环境。 建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。 支持自定义文案,单句文案长短需和样例相当。 每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。 不建议临场即兴发挥录制,避免出现较多嗯、啊的语气词,影响连贯性。 进阶版 高品质 专业录音棚+高保真MIC录制。
  • 录制内容提交规范 表3 录音提交内容规范 声音类型 音频说明 音频命名 基础版 支持整段录制或按句录制,详细说明如•(推荐)方式一:整段录制、•方式二:按句录制和•方式三:使用自定义语料按句录制所示。 符合手机录制音频-表1中“音频命名”的要求。 进阶版 高品质 仅支持整段录制,详细说明如•(推荐)方式一:整段录制所示。 音频文件命名无要求,可自定义,示例:VoiceClone.wav。 (推荐)方式一:整段录制 所有语料录制成一个长音频WAV文件,每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台,无需压缩,无需提供语料txt文件。 推荐使用服务预置语料,也可自定义语料。系统会自动根据停顿做切割,自动进行文本识别。 方式二:使用预置语料按句录制 每个音频文件时长约10秒,不能超过15秒,否则会导致声音模型训练失败。 使用预置语料,创建声音制作任务的时候,必须选对声音标签。并将所有音频文件压缩成一个zip文件,示例如图1所示。系统会自动匹配预置文本。 图1 音频压缩文件示例 方式三:使用自定义语料按句录制 每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。 每个音频文件需要匹配一个文本txt文件,且音频内容必须与文本内容完全一致,示例如图2所示。系统会自动使用传入的文本匹配音频。 图2 音频压缩文件示例
  • 制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。 进阶版:约1~3个工作日。 高品质:约5个工作日。 自定义声音应用方式,如下所示: 自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、视频直播或智能交互等场景中。 通过MetaStudio的API调用自定义声音。
  • 操作步骤 登录MetaStudio控制台,如图1所示。 图1 控制台页面 在左侧导航栏中,选择“租户管理”,进入“租户列表”页面,如图2所示。 图2 租户列表 单击租户名称右侧的“分配”,弹出“分配资源”对话框,如图3所示。 用户需要参考表1进行配置,如果需要分配多种资源类型,可单击右侧的图标,新增资源行。 图3 分配资源 表1 参数说明 参数 说明 请选择资源类型 从下拉框中选择已购买的资源类型。 示例:分身数字人形象制作。 请选择资源实例 从下拉框中选择已购买的资源实例。 示例:分身数字人形象制作 - 2023-11-14。 请选择资源数量 设置资源数量,不能超过所选资源实例包含的个数。 示例:5。 请选择日期 选择当前租户使用已分配资源的有效截止日期,超出此日期后,资源自动释放回资源包中。SP用户可再次分配给租户使用。 单击“确定”。在“租户列表”页面,查看分配效果,如图4所示。 以506租户的“分身形象制作(个)”列为例,“5 / 5”中第一个5说明当前资源实例分配了5个分身形象制作资源给当前租户;第二个5的含义为当前租户还剩余5个分身形象制作资源可用。 图4 租户列表 如需收回当前租户的资源,可单击租户右侧的“查看详情”,进入“租户详情”页面,如图5所示。 在下方的“资源列表”中,可以找到已分配的“分身数字人形象制作”资源。 图5 租户详情 单击资源右侧的“回收”,弹出“回收资源”对话框,如图6所示。 可以看到资源名称、可回收量、分配时间和到期时间。 图6 回收资源 根据实际情况,设置本次需要回收的数量(示例:2),单击“确定”。界面右上角提示“回收成功”,租户未使用的这些资源将被收回。 在“租户详情”页面的“资源列表”中可以看到,“分身数字人形象制作”的总量和可用量均从5降至3了。 图7 租户详情
  • 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“分身视频直播”下方的“开始创建”。 进入分身数字人直播首页面,如图1所示。 图1 分身视频直播首页面 在“直播管理”页签,单击“创建直播间”,进入视频直播制作界面。 界面详情如视频直播界面说明所示,对应操作说明如下所示: 除了系统预置的视频素材外,角色还可以自定义定制分身数字人,背景、贴图、视频还支持从本地导入使用。 从素材区域添加到视频直播区域中的贴图、视频和数字人支持进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小,拖动位置。 视频直播画面创作完成后,请根据实际情况,选择一种剧本驱动方式。 “剧本驱动”包含下述3种方式: 文本驱动 需要通过文本来驱动数字人说话。支持下述2种方式,增加文本内容。 直接在各个场景的段落框中输入文本内容。可单击图标,增加更多的场景或段落。 单击右上方的“导入”,从本地导入文本文件。文件必须为txt格式,字数不少于200字;如果多个段落,可通过换行来实现。 手工输入文本示例,如下所示: 请注意,当前仅为效果演示,实际一个段落需要满足至少200字,不多于2000字的要求。 段落1.1:大家好,今天欢迎来到会议室,我们今天讨论的主题是:如何更好的学习和工作。 段落1.2:我们每个人都有自己的学习和工作,难免会遇到一些问题。当我们遇到问题的时候,应该如何解决的呢? 图2 文本驱动 文本内容的操作说明如表1所示。 表1 操作说明 操作 说明 全局声音(主播) 全局声音为直播间中的数字人主播使用的声音。 有默认声音,用户也可以根据实际情况选择其他声音。 如果需要使用标注“第三方”的系统声音,请参考购买第三方声音进行操作。 直播女生(助播) 直播间的数字人为主播,这是助播的声音。 在开播后的界面,可以单击如图3所示的图标,切换到助播声音,再输入互动内容,通过助播声音播放互动内容。 试听 单击“试听”,可以试听当前所有场景下文字内容。 也可以单击具体段落区域的试听图标,试听当前段落的内容。 场景操作 支持对场景,执行下述操作: :设置主播声音。 :复制当前场景,新增一个相同场景。 :修改场景名称,默认值为“场景1”。 :删除当前场景。 :移动场景的位置。 :新增1个空白段落。 段落操作 支持对段落,执行下述操作: :使用主播声音播报当前段落内容。 :修改段落名称,默认值为“段落1.1”。 :复制当前段落,新增一个相同段落。 :删除当前段落。 :移动段落的位置。 图3 开播界面 音频驱动 单击“上传音频”,从本地上传已录制好的音频,如图4所示。 每个音频不能超过100M,支持WAV、M4A和MP3格式,每个场景的音频总时长不能低于1分钟。 图4 音频驱动 音频上传完成后,单击“试听”,可试听音频。 用户也可以根据实际情况设置主播和助播的声音。开播后可单击如图5所示的图标,切换到主播或者助播的声音,再发送互动内容,系统会使用所选声音播报互动内容。 图5 开播页面 即兴直播 无需设置剧本,直接开播,界面如图6所示。开播后数字人保持静默,需要发送互动内容或者通过真人接管,驱动数字人说话。 图6 即兴直播 如果还需要制作多场景,即切换多个背景及其展示的内容,可以单击右侧“场景”区域下方的“+”图标,新增场景,并参考前一个场景,设置生成下一个场景的画面布局和剧本内容。 所有场景的画面布局和剧本设置完成后,单击界面右侧的“互动设置”页签,如图7所示。 包含如下4类设置: 弹幕 用户入场 点赞 送礼 上面4类设置的操作基本相同,下面以弹幕为例,进行操作说明,详情参见表2。 用户也可以直接导入已有的互动库使用,如互动管理所示。 图7 互动设置 表2 弹幕设置说明 参数 配置说明 间隔时间 同一条弹幕规则重复触发的间隔时间,每条规则的触发时间互不影响。 默认值:120秒,不能小于60秒。 添加互动 单击“添加互动”,界面下方新增一条语料,如图7所示。用户可以根据实际情况,添加多条语料。 第一行输入框中,需要输入触发关键词,如果有多个,请以“|”分隔。即服务扫描弹幕的时候,如果扫描到此关键词,自动回复当前语料内容。 示例:链接|型号|优惠 第二行输入框中,需要输入相应的回复内容。 示例:关于产品的链接、型号和优惠等问题,请看界面上方的说明,按照说明操作,就可以详细了解了。 单击界面右侧的“直播配置”页签,如图8所示。 直播配置说明,如表3所示。 图8 我的视频 表3 直播配置 区域 参数 说明 开播设置 选择开播方式(二选一) 请根据实际情况,选择一种开播方式,并按照界面提示进行操作。 输出设置 直播画面 选择视频直播画面的清晰度。 包含如下选项: 流畅 高清 超清 默认值:高清。 播放次数 支持直接设置播放的次数,也可以选择“无限循环”。 风控设置 主播轮换 如果视频场景存在多场景,支持开启主播轮换,最多支持选择5个主播,以实现每轮场景更换时,相应的更换主播形象。 须知: 前面操作过程中,各个场景均已设置了相应的主播,即原主播;如果这里开启了“主播轮换”,且选择了主播,即备主播;那么直播时,可能随机选择原主播和备主播进行播放。所以直播画面的主播不一定是这里设置的备主播。 随机播放 仅“播放次数”选择“无限循环”时展示此参数。 如果开启随机播放,支持设置“随机规则”,包含如下选项: 按场景随机:视频直播过程中,随机选取任一场景进行播放,且确保场景不重复播放。场景中的段落仍按顺序播放。 按段落随机:视频直播过程中,场景播放顺序不变,场景内的段落随机进行播放,且确保段落不重复播放。 场景和段落都随机:视频直播过程中,随机选取任一场景中的任一段落进行播放,且确保所有场景的各个段落不重复播放。 更多设置 直播间ID 无需设置,当前视频直播保存后展示。 上述操作完成后,需要单击界面右上角的图标,保存直播内容。 单击界面右下方的“准备直播”,准备开播。 即兴直播方式,无需执行本步骤的下述子步骤。 弹出“风险提示”对话框,如图9所示。 用户需要参照风险提示项,逐一核查并优化视频直播内容。 图9 风险提示 用户可以等直播风险消除后,再开播,也可以选择“承担风险开播”。 在“直播窗口”对话框中,选择“竖屏”或“全屏”,如图10所示。 图10 直播窗口 单击“继续”,等待直播启动。 直播启动成功后,视频制作界面的直播画面区域,会展示直播启动的进度。 开播后的效果如图11所示。界面右下方的操作说明,如表4所示。 图11 开播页面 表4 界面说明 界面元素 说明 00:01:20 直播计时,当前已直播1分20秒。 切换互动内容播报的声音。默认为主播声音,可以切换为助播声音。 用户设置的互动内容列表,单击选择后发送,数字人会播报。 请输入互动内容,回车发送内容 输入互动内容,并发送成功后,主播或助播进行互动内容插播。插播结束后,继续播报原有内容。 真人接管 单击“真人接管”,开启真人接管功能。数字人停止发声,仅保留动作,改由真人发声。 真人发声结束后,单击“取消真人接管”,关闭真人接管功能,继续播报原有内容。 暂停 单击“暂停”,暂停播报。 单击“继续”,可恢复播报。 停止 单击“停止”,停止视频直播。
  • 操作步骤 登录MetaStudio控制台,如图1所示。 图1 控制台页面 单击左侧的“资源管理”,进入“资源管理”页面,如图2所示。 图2 资源管理 单击“分身数字人形象制作”右侧的“激活”,弹出“激活资源”对话框,如图3所示。 可以看到资源名称、总量、可激活数量和激活截止时间。可以自主设置激活资源的数量,无需一次性全部激活。 图3 激活资源 根据实际情况,设置本次需要激活的数量,单击“确定”。 界面右上角提示“激活成功”,激活成功。
  • 第三方平台直播画面突然中断是怎么回事? 可能是MetaStudio控制台自动退出登录导致。 排查和修改方法,如下所示: 在MetaStudio控制台直播间开播成功时,需要参考图1,单击URL地址右侧的拦截图标,从下拉框中选择允许弹出窗口。 图1 直播间开播 单击“完成”,会新增弹出如图2和图3所示的2个浏览器窗口。 MetaStudio控制台超过10分钟不操作,默认会退出登录,导致第三方直播平台的直播画面也中断。需要确保图3的窗口始终是打开的,直播过程中一定不能关闭,这样第三方直播平台的直播才能顺利完成。 图2 直播窗口 图3 确保直播过程不中断的窗口 父主题: FAQ
  • 第三方平台直播画面突然中断是怎么回事? 可能是MetaStudio控制台自动退出登录导致。 排查和修改方法,如下所示: 在MetaStudio控制台直播间开播成功时,需要参考图1,单击URL地址右侧的拦截图标,从下拉框中选择允许弹出窗口。 图1 直播间开播 单击“完成”,会新增弹出如图2和图3所示的2个浏览器窗口。 MetaStudio控制台超过10分钟不操作,默认会退出登录,导致第三方直播平台的直播画面也中断。需要确保图3的窗口始终是打开的,直播过程中一定不能关闭,这样第三方直播平台的直播才能顺利完成。 图2 直播窗口 图3 确保直播过程不中断的窗口 父主题: 视频直播