语音工作室

HS2VoiceStudio

在此之前，您应该确保您已经正确的安装并配置好XRM。否则请先查看安装配置章节

Q：这是什么？ A：这是我们针对 HoneySelect 2 推出的语音工作室。核心目标是实现简单便捷、完全个性化、可分享、自由的定制游戏内的语音内容。

Q：GPT-SoVITS 是什么？ A：GPT-SoVITS 是一款基于 GPT（生成式预训练 Transformer）与 SoVITS（语音转换技术）深度融合的开源语音合成系统。它能够在仅需极少量音频样本的情况下，生成自然流畅、情感丰富的语音内容。 HS2VoiceStudio 通过集成该系统，实现高质量的文本转语音（TTS）功能，用于创建个性化语音并应用于游戏场景中。

Q：XRM 附带 GPT-SoVITS 吗？ A：不附带，由于 XRM 更新频繁再加上 GPT-SoVITS 推理包非常大，我们不会将其整合到 XRM 内。您需要通过我们提供的分享链接额外下载此资源并解压到任意位置，然后稍作配置。在此之前，您无法打开 HS2VoiceStudio。

Q：我可以使用 GPT-SoVITS-Inference 训练模型吗？ A：不可以。这是一个基于 GPT-soVITS 开发的推理特化的前后端项目。如果需要训练模型，请下载原版 GPT-SoVITS。当然，您也可以寻找其他人分享的成品模型并安装。

Q：HS2VoiceStudio 会导致我的游戏受损吗？ A：不会。受限于环境差异，只存在修改成功与否，不存在导致游戏受损的情况。而且，HS2VoiceStudio 会在首次初始化时自动备份所有涉及到可能被修改的文件，请完全放心。

准备文件

XRMPC XXXX.XX.XX (VoiceStudio Edition).rar (≈200MB)

XRMPC GSVI 推理包.rar (3.99GB)

以上两个文件必须全部下载，我们会优先发布到QQ群组，如果您有某某网盘会员，可以考虑下载后进行上传和分流。

极客云盘filesbox.cc

请不要从用户分流的链接获取 XRMPC (VoiceStudio Edition) ，因为不是最新。

环境配置

XRMPC GSVI 推理包

下载后将其解压到任意位置，比如 “C:\GPT-SoVITS-Inference”

此位置并不是必须的，但是您必须保留 “GPT-SoVITS-Inference” 这层目录

XRMPC XXXX.XX.XX (VoiceStudio Edition)

注意！此处要求您已经配置好XRM的基础配置，否则请先查看安装配置章节

开始使用

请确保游戏和工作室已经关闭

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 2.00 MiB. GPU 0 has a total capacity of 2.00 GiB of which 0 bytes is free. Of the allocated memory 1.18 GiB is allocated by PyTorch, and 151.65 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation. See documentation for Memory Management (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
如果您出现此问题请尝试以下解决方案

如果 GSVI 推理方面存在任何环境问题或错误，导致 VoiceStudio 无法正确初始化，请自行解决。这超出我们的责任范围，请不要将此类问题报告给我们。

If there are any environmental issues or errors on the GSVI inference side that prevent VoiceStudio from initializing properly, please resolve them on your own. This is beyond our scope of responsibility, so please do not report such issues to us.

语音类别选择区

此区域提供了可供修改的语音总类，数字代表包含的语音条数。更多语音类别敬请期待

单击语音类别区项目，编辑器和播放器区载入项目

编辑器和播放器区

紫色标签：如果音频类别为人物型语音，则会显示不同性格，若为系统提示类型或其他大类，则显示总类别

蓝色标签：显示Unity3D资源文件内音频的内部标题，一般不需要了解

粉色按钮：P按键=Play=播放，S按键=Stop=停止，单击列表项也可以触发播放，需要注意的是BGM类由于文件比较大，解析过程可能稍长，点击后可能无法瞬时播放，请稍微等待

铅笔按键：编辑当前语音，打开语音编辑器

橙色标签：显示音频角色来源，默认官方，使用修改区修改后显示为语音模型名字，比如“爱莉西雅”

语音包制作区

预览图：语音包预览图，其他人用你的语音包时会看到

作者：你的名字，默认取计算机系统名

时间：当前日期，你也可以改别的

描述：语音包描述

生成语音包：会将你现在已经做的更改打包成一个语音包，没有更改过不能生成语音包

导入语音包：导入其他人分享的语音包，*.xvpk 文件格式，会将其他人的个性化语音应用到你的游戏内

我们提供了一个示例语音包，“示例.VoicePackage.1762937551.xvpk”

您可以下载并尝试导入

2MB

示例.VoicePackage.1762937551.xvpk

打开

语音包导入时会显示至多5个角色标签，代表此语音包所使用的角色模型。

语音编辑器

选择角色

右侧列表框会显示您当前推理后端载入的角色

Q：如何安装模型（新角色）？ A：“GPT-SoVITS-Inference\trained” 。在trained文件夹，通过子文件夹的形式导入人物。文件夹名称就是角色名称，里面应该至少有4个文件，以pth/ckpt/wav/png后缀名结尾。可以指定情绪参数的模型可能还会带有infer_config.json，这是配置信息。

preview.png 是固定命名，为角色列表框角色形象图片

参数解释

emotion：角色情感，需为角色实际支持的情感，否则将调用默认情感。
text_language：文本语言（中文、英文、日文、中英混合、日英混合、多语种混合），默认为多语种混合。

语言表

dict_language = {
    "中文": "all_zh",#全部按中文识别
    "英文": "en",#全部按英文识别
    "日文": "all_ja",#全部按日文识别
    "中英混合": "zh",#按中英混合识别
    "日英混合": "ja",#按日英混合识别
    "多语种混合": "auto",#多语种启动切分识别语种
    "auto": "auto",
    "zh": "zh",
    "en": "en",
    "ja": "ja",
    "all_zh": "all_zh",
    "all_ja": "all_ja",
}

~~top_k~~、~~top_p~~、~~temperature：GPT模型参数，不了解时无需修改。~~
batch_size：一次性几个batch，电脑性能高的可以开大点，会加速很多，整数，默认为1
speed：语速，默认为1.0
~~save_temp：是否保存临时文件，为true时，后端会保存生成的音频，下次相同请求会直接返回该数据，默认为false。~~
~~stream：是否流式传输，为true时，会按句返回音频，默认为false。~~
~~format：格式，默认wav，基本你随意指定，不支持会重新返回wav~~

暂时不开放自定义导入音频

备份和恢复

XRMPC 2025.11.12 (VoiceStudio Edition)\data\Backup\abdata

此位置为您的备份文件，可以完全恢复官方音频数据

VoiceStudio 目前未涵盖游戏全部语音内容，仅为试用版本

我们正在计划继续开发，以及适配全新的推理特化包，全面支持 GPT-SoVITS v2 / v3 / v4 / v2Pro / v2ProPlus 系列及其新特性，进一步满足50系显卡或其他硬件环境用户对 VoiceStudio 的使用需求并使音频产出达到最优效果。支持更多语音内容以及自定义语音文件。

您可以使用并留意可能出现的问题，任何由您所在环境（如整合包差异）导致的问题，都可在此阶段被及时发现并在下一次更新前得以优化。

最后更新于17天前

这有帮助吗？

晚安

hashtag准备文件

hashtag环境配置

hashtagXRMPC GSVI 推理包

hashtagXRMPC XXXX.XX.XX (VoiceStudio Edition)

hashtag开始使用

hashtag语音类别选择区

hashtag编辑器和播放器区

hashtag语音包制作区

hashtag语音编辑器

hashtag选择角色

hashtag参数解释

hashtag暂时不开放自定义导入音频

hashtag备份和恢复

准备文件

环境配置

XRMPC GSVI 推理包

XRMPC XXXX.XX.XX (VoiceStudio Edition)

开始使用

语音类别选择区

编辑器和播放器区

语音包制作区

语音编辑器

选择角色

参数解释

暂时不开放自定义导入音频

备份和恢复