studiovinari语音工作室

HS2VoiceStudio

HS2VoiceStudio
circle-exclamation
circle-info

Q:这是什么? A:这是我们针对 HoneySelect 2 推出的语音工作室。核心目标是实现简单便捷、完全个性化、可分享、自由的定制游戏内的语音内容。

Q:GPT-SoVITS 是什么? A:GPT-SoVITS 是一款基于 GPT(生成式预训练 Transformer) 与 SoVITS(语音转换技术) 深度融合的开源语音合成系统。 它能够在仅需极少量音频样本的情况下,生成自然流畅、情感丰富的语音内容。 HS2VoiceStudio 通过集成该系统,实现高质量的文本转语音(TTS)功能,用于创建个性化语音并应用于游戏场景中。

Q:XRM 附带 GPT-SoVITS 吗? A:不附带,由于 XRM 更新频繁再加上 GPT-SoVITS 推理包非常大,我们不会将其整合到 XRM 内。您需要通过我们提供的分享链接额外下载此资源并解压到任意位置,然后稍作配置。在此之前,您无法打开 HS2VoiceStudio。

Q:我可以使用 GPT-SoVITS-Inference 训练模型吗? A:不可以。这是一个基于 GPT-soVITS 开发的推理特化的前后端项目。如果需要训练模型,请下载原版 GPT-SoVITS。当然,您也可以寻找其他人分享的成品模型并安装。

Q:HS2VoiceStudio 会导致我的游戏受损吗? A:不会。受限于环境差异,只存在修改成功与否,不存在导致游戏受损的情况。而且,HS2VoiceStudio 会在首次初始化时自动备份所有涉及到可能被修改的文件,请完全放心。

准备文件

XRMPC XXXX.XX.XX (VoiceStudio Edition).rar (≈200MB)

XRMPC GSVI 推理包.rar (3.99GB)

以上两个文件必须全部下载,我们会优先发布到QQ群组,如果您有某某网盘会员,可以考虑下载后进行上传和分流。

请不要从用户分流的链接获取 XRMPC (VoiceStudio Edition) ,因为不是最新。

来自QQ群组用户"XX"的百度网盘分流
来自QQ群组用户"游龙"的夸克网盘分流

环境配置

XRMPC GSVI 推理包

下载后将其解压到任意位置,比如 “C:\GPT-SoVITS-Inference

此位置并不是必须的,但是您必须保留 “GPT-SoVITS-Inference” 这层目录

XRMPC XXXX.XX.XX (VoiceStudio Edition)

circle-exclamation
点击 “进阶功能”
点击 “个性化语音包”
点击 “选择”
选择 "推理包根目录"
启动 VoiceStudio

开始使用

circle-exclamation
首次启动时间较长,会先备份文件,我这里配置过了就直接启动了
备份完毕后开始启动推理后端,此时会出现一个CMD窗口

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 2.00 MiB. GPU 0 has a total capacity of 2.00 GiB of which 0 bytes is free. Of the allocated memory 1.18 GiB is allocated by PyTorch, and 151.65 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation. See documentation for Memory Management (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

如果您出现此问题请尝试以下解决方案

triangle-exclamation
如果你是首次启动推理后端,还会提示这个,选择允许
启动完毕后,进入此界面,如果推理后端成功输出 “欢迎来到甜心选择2语音工作室” 则代表服务完全启动成功

语音类别选择区

此区域提供了可供修改的语音总类,数字代表包含的语音条数。更多语音类别敬请期待

单击语音类别区项目,编辑器和播放器区载入项目

编辑器和播放器区

紫色标签:如果音频类别为人物型语音,则会显示不同性格,若为系统提示类型或其他大类,则显示总类别

蓝色标签:显示Unity3D资源文件内音频的内部标题,一般不需要了解

粉色按钮:P按键=Play=播放,S按键=Stop=停止,单击列表项也可以触发播放,需要注意的是BGM类由于文件比较大,解析过程可能稍长,点击后可能无法瞬时播放,请稍微等待

铅笔按键:编辑当前语音,打开语音编辑器

橙色标签:显示音频角色来源,默认官方,使用修改区修改后显示为语音模型名字,比如“爱莉西雅”

语音包制作区

预览图:语音包预览图,其他人用你的语音包时会看到

作者:你的名字,默认取计算机系统名

时间:当前日期,你也可以改别的

描述:语音包描述

生成语音包:会将你现在已经做的更改打包成一个语音包,没有更改过不能生成语音包

导入语音包:导入其他人分享的语音包,*.xvpk 文件格式,会将其他人的个性化语音应用到你的游戏内

我们提供了一个示例语音包,“示例.VoicePackage.1762937551.xvpk

您可以下载并尝试导入

"示例.VoicePackage.1762937551.xvpk"

语音包导入时会显示至多5个角色标签,代表此语音包所使用的角色模型。

语音编辑器

语音编辑器

选择角色

右侧列表框会显示您当前推理后端载入的角色

Q:如何安装模型(新角色)? A:“GPT-SoVITS-Inference\trained” 。在trained文件夹,通过子文件夹的形式导入人物。 文件夹名称就是角色名称,里面应该至少有4个文件,以pth/ckpt/wav/png后缀名结尾。可以指定情绪参数的模型可能还会带有infer_config.json,这是配置信息。

preview.png 是固定命名,为角色列表框角色形象图片

参数解释

  • emotion:角色情感,需为角色实际支持的情感,否则将调用默认情感。

  • text_language:文本语言(中文、英文、日文、中英混合、日英混合、多语种混合),默认为多语种混合。

chevron-right语言表hashtag
  • top_ktop_ptemperature:GPT模型参数,不了解时无需修改。

  • batch_size:一次性几个batch,电脑性能高的可以开大点,会加速很多,整数,默认为1

  • speed:语速,默认为1.0

  • save_temp:是否保存临时文件,为true时,后端会保存生成的音频,下次相同请求会直接返回该数据,默认为false。

  • stream:是否流式传输,为true时,会按句返回音频,默认为false。

  • format:格式,默认wav,基本你随意指定,不支持会重新返回wav

生成语音
应用最后一次生成的语音到标题项目
此窗口不需要反复打开关闭,开启时直接点其他的项目就可以了
修改完可以通过官方和角色名区分是否被修改过

暂时不开放自定义导入音频

备份和恢复

XRMPC 2025.11.12 (VoiceStudio Edition)\data\Backup\abdata

此位置为您的备份文件,可以完全恢复官方音频数据

circle-info

VoiceStudio 目前未涵盖游戏全部语音内容,仅为试用版本

我们正在计划继续开发,以及适配全新的推理特化包,全面支持 GPT-SoVITS v2 / v3 / v4 / v2Pro / v2ProPlus 系列及其新特性,进一步满足50系显卡或其他硬件环境用户对 VoiceStudio 的使用需求并使音频产出达到最优效果。支持更多语音内容以及自定义语音文件。

您可以使用并留意可能出现的问题,任何由您所在环境(如整合包差异)导致的问题,都可在此阶段被及时发现并在下一次更新前得以优化。

Drawing

最后更新于

这有帮助吗?