数字内容生产线 METASTUDIO-真人声音录制:录制内容提交规范

时间：2024-04-23 09:41:53

数字内容生产线 METASTUDIO 声音制作

表3 录音提交内容规范
声音类型	音频说明	音频命名
基础版	支持整段录制或按句录制，详细说明如•（推荐）方式一：整段录制、•方式二：按句录制和•方式三：使用自定义语料按句录制所示。	符合手机录制音频-表1中“音频命名”的要求。
进阶版		符合手机录制音频-表1中“音频命名”的要求。
高品质	仅支持整段录制，详细说明如•（推荐）方式一：整段录制所示。	音频文件命名无要求，可自定义，示例：VoiceClone.wav。

（推荐）方式一：整段录制
所有语料录制成一个长音频WAV文件，每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台，无需压缩，无需提供语料txt文件。

推荐使用服务预置语料，也可自定义语料。系统会自动根据停顿做切割，自动进行文本识别。
方式二：使用预置语料按句录制
每个音频文件时长约10秒，不能超过15秒，否则会导致声音模型训练失败。

使用预置语料，创建声音制作任务的时候，必须选对声音标签。并将所有音频文件压缩成一个zip文件，示例如图1所示。系统会自动匹配预置文本。
图1 音频压缩文件示例
方式三：使用自定义语料按句录制
每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。

每个音频文件需要匹配一个文本txt文件，且音频内容必须与文本内容完全一致，示例如图2所示。系统会自动使用传入的文本匹配音频。

图2 音频压缩文件示例