数字内容生产线 METASTUDIO-真人声音录制:录制内容提交规范

时间:2024-04-23 09:41:53

录制内容提交规范

表3 录音提交内容规范

声音类型

音频说明

音频命名

基础版

支持整段录制或按句录制,详细说明如•(推荐)方式一:整段录制•方式二:按句录制•方式三:使用自定义语料按句录制所示。

符合手机录制音频-表1中“音频命名”的要求。

进阶版

高品质

仅支持整段录制,详细说明如•(推荐)方式一:整段录制所示。

音频文件命名无要求,可自定义,示例:VoiceClone.wav。

  • (推荐)方式一:整段录制

    所有语料录制成一个长音频WAV文件,每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台,无需压缩,无需提供语料txt文件。

    推荐使用服务预置语料,也可自定义语料。系统会自动根据停顿做切割,自动进行文本识别。

  • 方式二:使用预置语料按句录制

    每个音频文件时长约10秒,不能超过15秒,否则会导致声音模型训练失败。

    使用预置语料,创建声音制作任务的时候,必须选对声音标签。并将所有音频文件压缩成一个zip文件,示例如图1所示。系统会自动匹配预置文本。
    图1 音频压缩文件示例
  • 方式三:使用自定义语料按句录制

    每个音频文件时长为5~15秒,不能超过15秒,否则会导致声音模型训练失败。

    每个音频文件需要匹配一个文本txt文件,且音频内容必须与文本内容完全一致,示例如图2所示。系统会自动使用传入的文本匹配音频。

    图2 音频压缩文件示例
support.huaweicloud.com/usermanual-metastudio/metastudio_05_0023.html