语音工作室

HS2VoiceStudio

HS2VoiceStudio

Q:这是什么? A:这是我们针对 HoneySelect 2 推出的语音工作室。核心目标是实现简单便捷、完全个性化、可分享、自由的定制游戏内的语音内容。

Q:GPT-SoVITS 是什么? A:GPT-SoVITS 是一款基于 GPT(生成式预训练 Transformer) 与 SoVITS(语音转换技术) 深度融合的开源语音合成系统。 它能够在仅需极少量音频样本的情况下,生成自然流畅、情感丰富的语音内容。 HS2VoiceStudio 通过集成该系统,实现高质量的文本转语音(TTS)功能,用于创建个性化语音并应用于游戏场景中。

Q:XRM 附带 GPT-SoVITS 吗? A:不附带,由于 XRM 更新频繁再加上 GPT-SoVITS 推理包非常大,我们不会将其整合到 XRM 内。您需要通过我们提供的分享链接额外下载此资源并解压到任意位置,然后稍作配置。在此之前,您无法打开 HS2VoiceStudio。

Q:我可以使用 GPT-SoVITS-Inference 训练模型吗? A:不可以。这是一个基于 GPT-soVITS 开发的推理特化的前后端项目。如果需要训练模型,请下载原版 GPT-SoVITS。当然,您也可以寻找其他人分享的成品模型并安装。

Q:HS2VoiceStudio 会导致我的游戏受损吗? A:不会。受限于环境差异,只存在修改成功与否,不存在导致游戏受损的情况。而且,HS2VoiceStudio 会在首次初始化时自动备份所有涉及到可能被修改的文件,请完全放心。

准备文件

XRMPC 2025.11.12 (VoiceStudio Edition).rar (188MB)

XRMPC GSVI 推理包.rar (3.99GB)

以上两个文件必须全部下载,我们会优先发布到QQ群组,如果您有某某网盘会员,可以考虑下载后进行上传和分流。

请不要从用户分流的链接获取 XRMPC (VoiceStudio Edition) ,因为不是最新。

不限速官方下载地址
来自QQ群组用户"XX"的百度网盘分流
来自QQ群组用户"游龙"的夸克网盘分流

环境配置

XRMPC GSVI 推理包

下载后将其解压到任意位置,比如 “C:\GPT-SoVITS-Inference

此位置并不是必须的,但是您必须保留 “GPT-SoVITS-Inference” 这层目录

XRMPC 2025.11.12 (VoiceStudio Edition)

点击 “进阶功能”
点击 “个性化语音包”
点击 “选择”
选择 "推理包根目录"
启动 VoiceStudio

开始使用

首次启动时间较长,会先备份文件,我这里配置过了就直接启动了
备份完毕后开始启动推理后端,此时会出现一个CMD窗口
如果你是首次启动推理后端,还会提示这个,选择允许
启动完毕后,进入此界面,如果推理后端成功输出 “欢迎来到甜心选择2语音工作室” 则代表服务完全启动成功

语音类别选择区

此区域提供了可供修改的语音总类,数字代表包含的语音条数。更多语音类别敬请期待

单击语音类别区项目,编辑器和播放器区载入项目

编辑器和播放器区

紫色标签:如果音频类别为人物型语音,则会显示不同性格,若为系统提示类型或其他大类,则显示总类别

蓝色标签:显示Unity3D资源文件内音频的内部标题,一般不需要了解

粉色按钮:P按键=Play=播放,S按键=Stop=停止,单击列表项也可以触发播放,需要注意的是BGM类由于文件比较大,解析过程可能稍长,点击后可能无法瞬时播放,请稍微等待

铅笔按键:编辑当前语音,打开语音编辑器

橙色标签:显示音频角色来源,默认官方,使用修改区修改后显示为语音模型名字,比如“爱莉西雅”

语音包制作区

预览图:语音包预览图,其他人用你的语音包时会看到

作者:你的名字,默认取计算机系统名

时间:当前日期,你也可以改别的

描述:语音包描述

生成语音包:会将你现在已经做的更改打包成一个语音包,没有更改过不能生成语音包

导入语音包:导入其他人分享的语音包,*.xvpk 文件格式,会将其他人的个性化语音应用到你的游戏内

我们提供了一个示例语音包,“示例.VoicePackage.1762937551.xvpk

您可以下载并尝试导入

"示例.VoicePackage.1762937551.xvpk"

语音包导入时会显示至多5个角色标签,代表此语音包所使用的角色模型。

语音编辑器

语音编辑器

选择角色

右侧列表框会显示您当前推理后端载入的角色

Q:如何安装模型(新角色)? A:“GPT-SoVITS-Inference\trained” 。在trained文件夹,通过子文件夹的形式导入人物。 文件夹名称就是角色名称,里面应该至少有4个文件,以pth/ckpt/wav/png后缀名结尾。可以指定情绪参数的模型可能还会带有infer_config.json,这是配置信息。

preview.png 是固定命名,为角色列表框角色形象图片

参数解释

  • emotion:角色情感,需为角色实际支持的情感,否则将调用默认情感。

  • text_language:文本语言(中文、英文、日文、中英混合、日英混合、多语种混合),默认为多语种混合。

语言表
  • top_ktop_ptemperature:GPT模型参数,不了解时无需修改。

  • batch_size:一次性几个batch,电脑性能高的可以开大点,会加速很多,整数,默认为1

  • speed:语速,默认为1.0

  • save_temp:是否保存临时文件,为true时,后端会保存生成的音频,下次相同请求会直接返回该数据,默认为false。

  • stream:是否流式传输,为true时,会按句返回音频,默认为false。

  • format:格式,默认wav,基本你随意指定,不支持会重新返回wav

生成语音
应用最后一次生成的语音到标题项目
此窗口不需要反复打开关闭,开启时直接点其他的项目就可以了
修改完可以通过官方和角色名区分是否被修改过

暂时不开放自定义导入音频

备份和恢复

XRMPC 2025.11.12 (VoiceStudio Edition)\data\Backup\abdata

此位置为您的备份文件,可以完全恢复官方音频数据

最后更新于

这有帮助吗?