声音制作-华为云

数字内容生产线 METASTUDIO-真人声音录制:录制内容提交规范

录制内容提交规范表3 录音提交内容规范声音类型音频说明音频命名基础版支持整段录制或按句录制，详细说明如•（推荐）方式一：整段录制、•方式二：按句录制和•方式三：使用自定义语料按句录制所示。符合手机录制音频-表1中“音频命名”的要求。进阶版高品质仅支持整段录制，详细说明如•（推荐）方式一：整段录制所示。音频文件命名无要求，可自定义，示例：VoiceClone.wav。（推荐）方式一：整段录制所有语料录制成一个长音频WAV文件，每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台，无需压缩，无需提供语料txt文件。推荐使用服务预置语料，也可自定义语料。系统会自动根据停顿做切割，自动进行文本识别。方式二：使用预置语料按句录制每个音频文件时长约10秒，不能超过15秒，否则会导致声音模型训练失败。使用预置语料，创建声音制作任务的时候，必须选对声音标签。并将所有音频文件压缩成一个zip文件，示例如图1所示。系统会自动匹配预置文本。图1 音频压缩文件示例方式三：使用自定义语料按句录制每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。每个音频文件需要匹配一个文本txt文件，且音频内容必须与文本内容完全一致，示例如图2所示。系统会自动使用传入的文本匹配音频。图2 音频压缩文件示例

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:制作声音模型

制作声音模型准备好音频文件后，就可以上传至MetaStudio控制台，进行声音训练。详细操作如下所示：创建声音制作任务查看声音声音模型制作耗时，如下所示：基础版：约1~3个工作日。进阶版：约1~3个工作日。高品质：约5个工作日。自定义声音应用方式，如下所示：自定义声音生成后，会自动展示在MetaStudio控制台声音列表中，可用于分身数字人视频制作、视频直播或智能交互等场景中。通过MetaStudio的API调用自定义声音。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:录音准备

录音准备表1 录音准备声音类型录制设备和软件录音环境录音文案基础版优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。同一批录音必须使用同一套录制设备和环境。建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。支持自定义文案，单句文案长短需和样例相当。每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。不建议临场即兴发挥录制，避免出现较多嗯、啊的语气词，影响连贯性。进阶版高品质专业录音棚+高保真MIC录制。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:开始录音

开始录音表2 录音注意事项录音事项说明话筒间距调整与麦克风之间的距离，以一拳距离为宜。不宜离麦太近，防止喷麦或录入呼吸声。录音内容每句文案起始数字编号无需阅读。示例：4. 它不仅拥有出色的功能，还具备卓越的性能，序号4无需阅读。音频格式推荐使用无损音质格式保存音频文件，如WAV格式。原始录音数据，需未经MP3等编码器编码，且为48kHz采样率、16bit编码和单声道。录制风格全程风格保持一致。如直播场景时，录制风格需接近日常直播效果。发音吐字发音吐字清晰、准确，音量适中。如果出现喷麦或嘶嘶声音，建议当前句子重新录制。语速节奏语速自然、平稳，切忌过快过慢、忽快忽慢。音量适中音量不能过小、过大、或忽大忽小，甚至削波爆音。峰值 RMS 在-9左右，无削波。停顿断句在标点或适当断句处自然停顿，需轻声换气。如果录制一个长音频文件时，每句之间需要有2~3秒的停顿。重音位置重音位置要合理，避免错误的重音。阅读发音按顺序读，确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题，需整句重新录制。

数字内容生产线 METASTUDIO 声音制作

云服务器内容精选

声音制作

7*24

备案

专业服务

退订

建议反馈

售前咨询热线