UTAU萌新们经常遇到的Q&A – shine

前言

大家好，这里是shine_5402。

本文就如标题描述的一样，是在整理了许多碰到的关于UTAU的提问后做出来的一份Q&A。

如果你是从贴吧来到这里的，请记住在贴吧的提问楼提问前，先到这里查看是否有你想要问的问题的解答，如果你问的问题与该贴内有重复，你的提问很大概率会被删除。

以及，无论你是哪里来的，请先阅读这篇文章：提问的智慧。每个人类都应该把这篇文章挂在床头，每天读一遍。

内容比较多，请善用浏览器/查看器的搜索工具（一般可由Ctrl+F调用）来搜索你的问题。

下文中有关UTAU内的菜单项、控件文本均假定你使用的是汉化版的UTAU。

本文参考、借用了哈鲁鲁的UTAU教程站内的部分表述，落雨、隋卞等人也帮忙做出了诸多修改，哈鲁鲁的UTAU群内的大家也提供了许多建议和指导，特此感谢。

那么我们开始吧！

如何下载/安装UTAU？

大家可以在UTAU官方网站（http://utau2008.xrea.jp/）找到UTAU的下载链接，也可以直接使用该直链（http://utau2008.xrea.jp/utau0418e-inst.zip）下载该篇文字撰写时的最新版本。

由于下载链接服务器在境外，所以下载速度可能比较慢，请耐心等待或使用加速器。

注意，UTAU本体并不允许没有取得许可的情况下无断再配布¹，所以除了官网和在官网上有记录允许再配布的途径之外的UTAU下载地址都是无断转载，都是违反规约的。请不要在这些地方下载UTAU。

在下载好UTAU的安装程序后，直接执行便可进入标准的安装流程。安装程序是日文的，但是操作与一般安装程序一致，一路下一步（次へ）即可。

在安装中选择「すべて」开头的项即为全部用户安装，「この」开头的项即仅为当前用户安装。

这里推荐在选择安装路径将UTAU安装到Users用户组拥有完全权限的全英文路径下（说的通俗清楚一点就是非C盘，非Program Files等系统管辖的全英文路径下，例如E:\UTAU\），以防止后续使用过程中出现权限和路径导致的诸多问题。

我的UTAU不出声/不生成WAV

这个问题可能由许多种原因导致，接下来列举几个常见的。

没有填词

这种问题的一个明显特征是UTAU的歌词区域内都显示类似于”√”这样的符号（在936代码页下²），通常在导入MIDI后出现。

无论是出于测试用途还是正式使用用途，请在UTAU内显示的音符中填入正确的原音块别名后再合成播放。

填词出错

与上一个情况不同，可能你填了歌词，UTAU也并没有发出声音。这时，请检查你的音源究竟使用了什么录音方案/拆音方案，并根据相关方案的使用说明修改你输入的歌词，或者使用插件辅助这一过程。

也请善用UTAU内的”工具”-“音源库设定”窗口，并根据”辅助记号”一列的内容来确定需要使用的原音块别名。

曲速不正确

这种问题的一个明显特征是UTAU的曲速窗会直接显示500000，一般在导入MIDI后出现。

这个问题是由于UTAU对MIDI文件内的曲速³识别出错造成的。

要解决这个问题，请手动将曲速修改为正确的曲速。

在设定曲速时，你可能会碰到无法正确设定全局曲速的情况。这种情况可能是由于UTAU读取MIDI时错误进行了曲速分段导致的。遇到这种情况时，请直接在钢琴窗上方的曲速栏内修改所有出现的500000为正确曲速，或者保存后使用记事本打开ust，修改所有的开头为Tempo=的行。

工具1（合成器）设置不正确

工具1（合成器）设置为moresampler时

如果你将工具1（合成器）设置为了moresampler，那么请确保没有打开UTAU的多线程合成功能，否则会出现UTAU弹出一个wav路径的错误窗口。

误将工具1（合成器）设置为其他工具2（重采样器）

注意，只有moresampler能够作为工具1（合成器）使用，在使用其他工具2（重采样器）时，请使用真正的工具1（合成器）（如wavtool、wavtool2、wavtoolex、wavtool4vcv、wavtool-yawu等）。

文件路径中出现了UTAU无法处理的字符

如果你的UTAU本体/工程路径/工程生成的WAV文件名中出现了UTAU或操作系统无法处理的字符，那么WAV生成过程就无法进行，甚至连工程本身都无法被打开。

简单粗暴的解决方法是确保以上路径都是全英文，这样基本上就不会碰到由这几个路径导致的编码问题。

不过，只要工程路径/工程生成的WAV文件名的每个字符的内码都在GBK内有对应，那么UTAU便能正常使用。UTAU本体仍然建议使用全英文路径。

踩坑率十分高的字符是”・”和”　”（日文全角空格），这两个Shift-JIS字符在GBK中并没有对应内码，如果在下载的工程文件的文件名中碰到这两个字符，请务必手动修改掉。

音源内的wav文件名编码不对

由于UTAU是在日语环境（Shift-JIS）下开发的，所以它也只能将读取的音源内的文件名视为以Shift-JIS表示。所以我们需要让我们的音源的wav文件名以Shift-JIS表示。如果你的音源内的wav文件名形如”_偝偝偡偂偝偡偣偝.wav”，且你的Windows处于中文简体（936）的代码页下，那么这种文件名是正确的，不需要担心这种乱码。如果你的文件夹内显示的是正常的假名，请使用菲菲更名宝贝等工具将其转换为如下的乱码（设置转换设置时可以使用Unicode→Shift-JIS）

音源文件的frq信息不正常

参见后文对frq的说明。

调校完之后要做什么/怎么转换ust到WAV

在你做完UTAU的调校之后，请使用UTAU的”工程”-“输出wav文件”功能输出该工程对应的人声轨音频文件（以WAV格式）。由于ust只是描述了工程中各个音符的相关信息，他并不是一个音频文件，所以无法使用格式工厂⁴等需要源音频信息的软件进行转换。

在导出人声轨音频文件后，便可以进入混音流程。本文在这里不讨论如何混音，请自寻教程学习，或者寻求他人帮忙。

啊对了，“转换ust到WAV”这种说法是很不严谨的事情。下次请不要再这么说了。

有没有UTAU的交流群/同伴/参考网站

有，而且还很多。

如果你的日语不错，那么UTAU ユーザー互助会@ ウィキ（https://www20.atwiki.jp/utaou/pages/65.html）等网站可以提供许多有关UTAU的信息。

如果你的英语不错，那么UtaForum（https://www.utaforum.net/）是个不错的去处。

当然，如果没有外语技能的，使用中文的UTAU支援交流群/参考网站也有许多，以下列举一些。

首先本贴吧的交流群”UTAU贴吧交流群_拒鬼畜/人力V”，群号是287672102，不讨论鬼畜及人力VOCALOID相关，主要以正常录制音源及相关创作为主。

然后是UTAU中华组wiki。此处UTAU中华组一词泛指全部的国产UTAU音源，类似UTAU海外组。当一个UTAU音源由中国人提供声音，就可以将其归类为UTAU中华组。无论是中国大陆、港澳台等地的居民还是海外华人，只要主观认同自己是中国人就均可包含在内。不过也有人因为种种原因不喜欢被这样分类，所以UTAU中华组的划分并不强制。你可以在UTAU中华组wiki的关于页面（https://utauchn.huijiwiki.com/wiki/UTAU%E4%B8%AD%E5%8D%8E%E7%BB%84wiki）上找到详细定义。UTAU中华组wiki是一个网站，旨在支援UTAU中华组音源相关的二次创作活动，致力于收集、汇总、保管与UTAU中华组音源相关的信息。你可以在UTAU中华组wiki中找到许多归属于UTAU中华组的音源，UTAU中华组还提供了中日双语的公共规约供音源创作者们借用。不过请注意，UTAU中华组wiki不是一个社团，也不是任何类型的组织。

UTAU中华组wiki的建站人Haru.jpg也创建了一个交流群”哈鲁鲁的UTAU群”，群号是646649077，是一个UTAU中心综合闲聊群。不过这个群和UTAU中华组wiki并没有关系，但是是一个聊UTAU相关话题的好去处。

哈鲁也建立了一个教程站（https://utaujc.jimdofree.com/），你可以通过这个网站学习UTAU的相关知识。

还有，本吧现吧主落雨有一个交流群”UTAU兽人萌新招待所”，群号是227937250，也是个以教导萌新为主旨的交流群，虽然创作氛围基本偏向兽人音源，但是基本上只要是关于UTAU的问题都是可以问的。

最后，请善用搜索引擎。

什么是音源

音源之于UTAU，就像墨水之于笔，是引擎合成歌声文件时必不可少的一部分。

音源的主体是包含了作为基准的人声信息的原音文件和告知原音文件的各部分原音块信息的原音设定文件（oto.ini）。通过使用这些信息，引擎就能以此为基准合成出需要的歌声。

参见“UTAU中华组wiki”中的音源页面。

xx音源哪里找/求分享/能发给我吗/求音源

首先，回答后面的两个问题。一般情况下，不能。因为一般情况下大部分音源都不允许二次配布，也就是说任何除音源配布管理者以外的其他人都不能将他们本地的文件在公开场合分享给你，他们最大限度能做的只是把作者提供的下载链接提供给你。未经允许二次上传任何非自己原创的东西都属于无断转载（未经允许的转载），对原作者本人是极为失礼的，程度严重的话可以构成犯罪。不过如果音源规约允许的话（可能性很小），那么二次配布也是可以的。

然后是非人力音源在何处找寻。UTAU中华组wiki登记了许多属于UTAU中华组的音源，并有指向他们配布网站的链接，或是托管了没有配布网站的音源。UTAU Wiki（http://utau.wiki）、UTAU Visual Archive（https://utaudatabase.wiki.fc2.com/）等网站记载了许多UTAU音源和他们的配布站地址，VocaDB（Vocaloid Database）（https://vocadb.net/）也有大量的UTAU音源条目和他们的配布站地址。同时也有许多类似的整合站整合了许多音源的配布站地址。

不过，如果你有特定想要的音源/没有在上述网站上登记的音源，那么更简单的方法是在搜索引擎（如百度、谷歌）、视频网站（niconico、bilibili、youtube）中搜索音源名称+配布。这样一般就能找到配布站/配布链接了。

如何安装音源

解压到UTAU本体路径内的voice文件夹下即可，每个音源请给一个单独的文件夹来放置。

xxx的MIDI/UST/VSQX/现有工程哪里有

哈鲁鲁的UTAU教程站（https://utaujc.jimdofree.com/download4/）中有一部分UST/VSQX/MIDI配布网站的链接，除哈鲁列出的外，国内还有VSQX分享平台（https://www.vsqx.top/）、 MIDIShow（https://www.midishow.com/）等网站。你也可以通过在niconico、google、bilibili等处以歌曲名称+UST（或VSQX、MIDI）为关键词进行搜索。

请注意使用其他人分享的UST/VSQX/MIDI文件必须明确标注来源，并认真阅读和遵守readme.txt等说明文档内的使用规定。

如果没有现有工程，你可以向接扒谱的人约稿来获得MIDI。注意，扒谱也是一种劳动，通常是需要收费的。

请务必标明所有你借用的东西的来源，尊重他人的付出。

还有，与音源一样，绝大部分现有工程并不允许二次配布，且这一要求是默认的。只有在原作者声明允许二次配布时你才可以这么做。

Readme中的”You must credit me”是什么意思

就是叫你使用后标明来源的意思。

虽然但是，为什么会问出这种问题，能去使用一下翻译工具吗？

什么是插件

插件是安装于UTAU的plugin目录下的小程序，可以被UTAU调用并对UTAU的工程文件进行操作，从而扩展UTAU的功能。合理使用合适的插件可以对调声起到事半功倍的效果。

xx插件/引擎哪里找/求分享/能发给我吗/求插件/求引擎

哈鲁的教程站（https://utaujc.jimdofree.com/download1/）整合了一系列引擎/插件的公式下载地址。

UTAU ユーザー互助会@ ウィキ也有对引擎（https://www20.atwiki.jp/utaou/pages/65.html）与插件（https://www20.atwiki.jp/utaou/pages/36.html）进行整合。

当然，使用搜索引擎和视频网站也是个不错的主意。

另外，引擎/插件与音源和现有工程相同，也在一定程度上有二次配布的限制。不过作为程序，也有许多作者允许分发，请参见各作者的使用协议。

什么是CV、CV-VV、CVVC、VCV、VCCV/拆音方案/录音方案？

TLDR：连续性：VCV ≈(>) CVVC > CV(-VV)；录音量：VCV > CVVC > CV(-VV)；使用难度：CV ≈ VCV << CVVC。

首先，以上标记中，C代表辅音（consonant），V代表元音（vowel）。而这些由它们组合成的标记指的是在调声使用时在歌词区域要填入的歌词的形式。

CV代表的是单独音，即在歌词区域填入由辅音+元音构成的原音块（如日语的”ら”，可以看做”r”+”a”），注意，CV只是对方案的描述时的表现形式，实际上大部分并没有严格将C和V分开，而是以该语言中的自然单字存在（如前文的例子）。

CV-VV是指要在歌词区域填入CV（如中文扩张整音的 “lan”）后，将该音符拆开成两个音符，后一个音符填入元音音符（如中文扩张整音的”_an”）的方案。扩张整音、Syo严式等属于这种方案类型。这种拆分可以一是用来补足由于UTAU设计时没有考虑到的韵尾部分，二是可以用于减少录音量。

VCV代表的是连续音，是指要在歌词区域填入V CV形式的歌词（如日语的”a ら”）的一种方案。如果该音符在开头，那么V部分使用”-“字符代替。VCV方案的好处是更大限度地保留了原音块间的连接部分，使用起来没有细碎音符，且相较CVVC渐变部分更少，但这会导致录音量的迅速扩大。

CVVC是指要在歌词区域中填入CV（如日语的”ら”和”ら”）后，在每两个音符之间拆出一个VC（如日语的”a r”）形式的短小音符的一种方案。最后音符会像CV+VC+CV这样排列，由此得名CVVC。CVVC的好处是相比CV多出了原音块与原音块之间的连接部分，且较VCV录音量更小，但多出的细碎音符增加了调声难度，且拆出的通用连接部分相较VCV可能有小概率不适用的情况，且CVVC增加了音符间的拆分渐变次数，相比VCV增大了出错概率。

VCCV方案多见于英语等需要C-C原音块的语种，以英语举例，由于英语中有许多C-C部分（如risk/rɪsk/的/sk/），所以英语的VCCV方案的基本元素中增加了C-C原音块，可以看做是拥有这些原音块设定的CVVC。

在音源使用语境下时，这些名词将指代相应的拆音方案，也就是使用时该如何填写歌词与拆分音符。在音源录制语境下，这些名词将指代相应的录音方案，也就是对应的录音表。

什么是原音

原音是音源库中的一系列WAV文件，引擎将通过对原音的算法操作获得歌声，由于基于原音进行合成，所以合成的歌声的音色会与原音相近。原音的质量是音源库质量的决定性因素之一。

什么是原音的音阶

原音的音阶指你所录制的这一组原音（通常以一张录音表内容分组）录制时所确定的目标音高，也就是你在录制这一组音的时候想要往哪个音高录。

虽然由于UTAU的引擎有对原音音高的自动探测，以至于你可以不用严格地让你的录音完全维持在同一音高，但是让上述的一组元音大致维持在一个平均音高附近可以让合成效果更为稳定（因为引擎的音高拉伸能力要看原音音高和目标音高的差值）。

如果你对音高和音阶的概念有些疑惑的话，请使用搜索引擎。GIYF（or BIYF）。

为什么我们需要多音阶音源？

如上文所述，尽管引擎可以用一份原音来变换到任意音高，但是超出一定范围的生成结果并不理想（比如音色改变，发虚，变电etc.）。这时，通过录制目标为多个分开一定间隔的音阶的原音组，再让UTAU对特定区域调用特定音阶，我们就可以将各个音阶的最佳变换范围合并起来，让总体音源的最佳合成范围变大。

同时，你也可以录制不同力度乃至不同发声效果的音阶并合并在一个音源里——比方说假声，强弱差分等，通过用户的手动调用，可以创造出更自然更好听的效果。

当然，如果在看本文的你是一个想要录制自己的UTAU音源的新人，可以放心地先录制单音阶音源积累经验。多音阶并不是必要的，只是能让你的音源最后的效果变得更好。

要怎么选择多音阶音源要录制的音阶呢？

对于想要扩展音源的最适音高范围的目的，可以选择一个对应声线录制时最舒服的音高，然后以此为中心，按照4~5个半音间隔选择扩展用的音高。

对于不同力度的差分，也请选择让这个差分录制地最舒服的音高就好。如果是设计上想要与上述音阶混用的差分（比如力度差分），能够控制在和上述原音一样的音阶是最好的。

还请注意，音阶数的增加是有着边界效应的，虽然理论上来说增加音阶数能让你的音源变得更好用，但是在超过一定数量后，你所录制的音阶对质量的贡献已经没有那么大了，甚至可能会引入一定的声线不稳定性。可以向初心者推荐的万金油多音阶配置是：基础+高音补充+低音补充+假声，这种配置已经可以应付大多数情况，如果还想继续录，可以录制相同音高的力度差分。

最后的最后要提的最重要的一点：请量力而行。

什么是原音设定（oto.ini）

原音设定在UTAU中指的是UTAU音源文件夹中的oto.ini文件。它是UTAU音源中用于标注声音文件各元素位置的一个配置文件。制作完一个音源，只有在为其进行原音设定之后，才能使它真正成为一个能够正常使用的UTAU音源。也就是说，做原音设定是使声音文件转变为UTAU音源的一个过程。而原音设定的好坏直接影响到音源的质量，被称为UTAU音源的灵魂所在。由于文件名为”oto”，因此在国内也会被谐音称为”窝头”。

在oto.ini中，每条设定由以下部分构成：

Left Blank（左边界）指的是这个原音块的起始在WAV原音的哪个位置

Overlap（重叠）指的是后面音符的辅音部分和前面音符的结尾部分的重叠长度，两者将同时发声

Pre-utterance（先行发声）指的是该原音块提前于音符发声的部分何时结束。通常处于辅音的结束部分。

Consonant（固定范围）指的是该原音块拉伸/循环区的起始。在左边界和它之间的部分不会被拉伸。

Right Blank（右边界）指的是是这个原音块的结束在WAV原音的哪个位置

Alias（辅助记号/别名）这个原音块在歌词区域应使用什么歌词进行调用。叫做别名是因为它代替了WAV的文件名。

你可以在UTAU的”工具”-“音源库设定”窗口中查看当前音源的音源库设定，并对他们做出修改。不过，音源库制作者们更多使用nwp8861开发的setParam工具进行原音设定。

教授如何进行原音设定超出了本文的讲述范围，在哈鲁鲁的UTAU教程站（https://utaujc.jimdofree.com/blog/%E5%8E%9F%E9%9F%B3%E8%AE%BE%E5%AE%9A%E6%95%99%E7%A8%8B/）有关于原音设定的详细教程。

也请参见本博客的另一篇文章：闪闪的原音设定碎碎念1：一条原音设定条目里到底包含了什么。

什么是frq/为什么我的音源原音听着可以，但是合成效果明显不对

频率表，又被称为周波数表（日文汉字）、基频表（f0）、frq（由于默认引擎的频率表扩展名是frq）等，是描述原音的音高信息的文件。它告知引擎该原音原本的音高信息（基频），引擎将根据该信息得知目标音高与基频的差值来进行音高变换。如果基频信息出错，那么引擎将进行错误的音高变换，从而使合成结果出错。

UTAU内建对.frq（默认引擎和部分ameya家其它引擎使用，如resampler，fresamp等）的生成、修改功能，你可以通过音源库设定窗口的”编辑frq”功能和”初始化frq”功能进行操作。如果需要批量生成该音源的.frq，可以双击”编辑frq”功能和”初始化frq”之间的空白，通过”一次性生成频率表”功能进行操作。

但是，有许多引擎使用的是自己的频率表格式（如TIPS的.pmk、Moresampler的desc.mrq），如果需要对这些频率表进行生成和编辑，可以使用frqeditor（https://www.mediafire.com/folder/rra0zg66lb419/frqeditor）。

对frq的编辑的讨论也超出了本文的范围，你可以自己在互联网上搜索相关教程。frq editor也提供了一份关于频率表的说明，可在”Help”-“Download the manual”下载。

如何设置默认音源

在”工程参数设置”窗口选择好需要的音源后，通过”音源”-“设为默认”命令进行设置。

什么是PIT（音高线），为什么要编辑PIT，如何弄出好听的PIT

这里的PIT指的是Pitch Bend（音高线），指的就是合成出的歌声的音高。真正的歌声的音高实际上并不是完全严格一直按照钢琴窗的音高，也不是都是十分平滑的过渡，根据唱法和感情，实际上真人的歌声的PIT有着许多变化（如下图）。

所以，在调校时调整PIT的目的就是为了创造这种变化，使最后合成出的歌声更加自然，或者达到所需的效果。

PIT的编辑其实并没有一个绝对的定论，每个人都有着自己对PIT编辑的习惯和想法，多多尝试，去观看别人的调声晒（即对自己UTAU编辑界面的录屏）以学习，观察下载下来的有参UST作为参考，都可以帮助你形成自己对PIT的认识。

什么是Mode 1、Mode 2/我的音高编辑界面不对/和别人不一样

UTAU内建了两种PIT编辑模式，叫做Mode 1/Mode 2，可以使用UTAU主界面的右上角的”Mode 2″按钮切换。

在Mode 1下，UTAU使用一系列数值点⁵（数值点之间将直接以直线连接）对目标音高信息进行描述。UTAU内的音高编辑将如下图所示：

在Mode 2下，UTAU使用一系列点和点之间的曲线形状描述来对目标音高信息进行描述。UTAU内的音高编辑将如下两张图所示：

两种音高描述方式各自有着利弊，请根据自己的需要来进行选择。

另外，由于Mode 1的UTAU内建编辑方式十分硬核，许多人使用扩张式PIT编辑器对其进行编辑。

无论是使用Mode 1还是Mode 2，扩张式PIT编辑器都提供了十分方便直观的编辑方式，同时支持在二者间切换/复制。

UTAU能不能导入伴奏

不能。

请在导出人声轨后在DAW里进行混音操作。

伴奏在哪里找/求伴奏

一般来说，对于VOCALOID与UTAU曲，如果P主不禁止翻唱/翻调的话，许多P主会直接在其视频简介/个人网站/piapro中配布伴奏。无论是从何处下载，请注意伴奏的使用规约。如果上述位置均没有，可以试着在niconico找寻这首歌曲的ニコカラ的off vocal版本。

如果是找不到伴奏的V/U曲/三次元/碟曲，也可以试着在niconico、bilibili、youtube、5sing等处找寻是否有他人制作的伴奏/arrange ver./消音/ニコカラ，或者自己使用RX7/Au等进行消除，但是请务必注意，有许多这类曲子并不允许翻调/唱，请在翻调/唱前调查清楚。

右下角的”M”是什么/为什么我的UTAU多选时不能批量在主界面内编辑音高/强度了

右下角的”M”标记代表着此时UTAU处于多选编辑模式，此时对选中部分的单个音符的部分操作（如音高切换，强度编辑）将同时应用于所有选中音符，没有”M”标记时则将只应用于被操作音符。你可以通过点击图中红色框标记的区域来在这两种模式间切换。

为什么在编辑的时候会出现黄底红字的感叹号？

这是UTAU在包络线出现错误的时候的警告提示，具体来说，就是包络线出现后面的点跑到前面而出现交叉情况。这种情况在手动编辑的时候是不会出现的，通常是在进行某些自动操作（如”p1p4/p2p3渐变”）时出现。

一般来说，导致该错误的根本原因是后一个音符的”先行发声（Pre）”和”重叠（Ovl）”数值大于前面的音符长度，再在此时进行渐变导致的。

首先，请先检查你的ust的音符属性中的”先行发声（Pre）”和”重叠（Ovl）”数值是否被修改过，且该修改并不是你需要的。有些有参ust有手动修改过这些数值以达到特定效果，但这些修改通常只适用于原先的声库，更换声库基本无法适用。在清除后，请进行”重置包络线”->”p1p4/p2p3渐变”操作。

如果该操作无效，请检查音源是否正确加载，以及音源中是否有出现感叹号的原音块以及其前后的原音块。如果没有对应原音块，UTAU会将其Pre和Ovl值视为0，那么原先的渐变自然也会出错。

如果你确认上两步没有问题，那么请根据接下来的描述排查：

如果你使用的是单独音音源，那么除母音结合、元音连续原音块、语尾特殊原音块之外，一般不需要进行渐变，你可以点击感叹号，这样会让UTAU帮助你自动修复包络线，或者直接使用”重置包络线”命令，或者自行修改包络线。

如果你使用的音源使用了CVVC、连续音等需要渐变的方案，那么UTAU自动修复包络线和”重置包络线”可能会导致发音不连贯，这时可以试着修改这一音符和这一音符前后音符的”辅音速度”，这将让UTAU以给定比例拉伸”非拉伸区”，从而使实际渐变时参与计算的Pre值和Ovl值变短。在修改完后请进行”重置包络线”->”p1p4/p2p3渐变”操作。

也可以试着在保证连贯的前提下减小Ovl数值，或者直接检查原音设定。

如果包络线交叉的部分不是很多，那么手动将其修改为不交叉一般也不会导致不连贯，也是个可行的选择。

我调的时候感觉发音不连贯

检查包络线是否出错，再试着修改重叠（Overlap）和辅音速度，如果怎么调整都不连贯，请检查原音设定是否正确。如果原音设定正确，那么可能是原音本身就有一定问题（如咬字出現偏差，或者音質不同等），这时可以向音源制作者发送反馈。

我的声库似乎发音不完全/缺音

请先确认自己的歌词是否输入错误，然后确认自己是否使用了正确的拆音方案。然后检查是否是自己试图调用的原音块在音源库里是另一别名。另外，也有可能是prefix.map中的映射出错导致该区域使用了不存在的原音块。如果音源库里真的没有这个原音块，那么可以向音源制作者发送反馈。

歌词填写区域出现乱码

由于UTAU在日本环境（Shift-JIS）下开发，所以它也只接受Shift-JIS的输入，所以在中文（GBK）环境下在UTAU本体内部的输入框中正确输入非英文基本无解。对于日文音源，你可以使用罗马音输入后再通过插件转换。

有没有什么可以输入中文自动填写拼音的插件

有。

贴吧内有由”米粒”开发的UTAU Easy Chinese Inputer，可以在此处查看：http://tieba.baidu.com/p/5732841114?pid=120120348633&cid=0#120120348633。

如果你使用的是Voicemith的音源，还可以使用随音源分发的Set Lyrics 3。

什么是音长/音长和具体秒数的关系是什么/什么是曲速/BPM/BPM和音长的关系

曲速指的是这首歌曲的快慢，现代习惯以每分钟多少拍（beats per minute，BPM）作量度单位，这表示一个指定的音符，例如四分音符在一分钟内出现的次数，BPM的数值越大代表越快的速度。UTAU默认是使用4/4拍，所以UTAU内的BPM便是指四分音符在一分钟内出现的次数。

在UTAU内，一个四分音符的音长是480。于是音长到具体时间的计算公式就是：（60/bpm/480）*音长。

如何自制一个音源

首先，请做好要面临很大工作量和付出许多金钱的准备。无论是工作量的付出还是金钱的付出，都和音源最终的质量有很大关系。

然后，首先先讲讲和音源制作没有什么关系的角色设计。角色设计也是制作一个音源中重要的一环，虽说角色设计实际上不好分出好坏……不过角色设计也像是音源的名片一般的感觉，好的角色设计可以吸引更多人使用这个音源，不过音源的质量也要和其相符才行。

我们建议新人亲自设计属于自己的角色。不会画画的话，自己设计一个大致的形象后请会画画的朋友帮你完善立绘也可以。UTAU的角色几乎是以”被人二次创作”为前提的，如果角色由他人创作，制定使用规定时就必须寻求设计者的意见，例如是否允许色情、暴力等题材。如果请他人设计角色，请一开始就和对方尽可能地商讨清楚上述问题，免得以后遇到问题联络不到对方，或是角色落成之后才和对方发生矛盾。

录音过程先是需要你有录音设备。录音设备的好坏将对你的音源质量带来极大影响。麦克风、音频接口的挑选超出了本文的范围，不过基本就是在预算内越贵越好。

在准备好设备并调试好之后，请参照哈鲁鲁的UTAU教程站中的教程（https://utaujc.jimdofree.com/blog/utau%E9%9F%B3%E6%BA%90%E5%BD%95%E9%9F%B3%E6%95%99%E7%A8%8B-1/）进行录音。

在录制完需要的原音之后，可以使用Audition或RX7等软件对原音作出一些处理，比如消除爆音、齿音、咔哒声等。你可以使用这些软件中内建的批处理功能来批量处理原音，也可以使用wavTar等WAV合并/切割工具。

之后便是原音设定。原音设定可以自己做，也可以委托给别人做。由于原音设定也是种劳动，大部分人都是有偿做oto，所以要委托的话请准备好相应款项。自己做的话可以参照哈鲁鲁的UTAU教程站中的教程（https://utaujc.jimdofree.com/blog/%E5%8E%9F%E9%9F%B3%E8%AE%BE%E5%AE%9A%E6%95%99%E7%A8%8B/）。

接下来你可以选择自己生成所有的频率表文件（方式见前文），并检查是否出错。

然后便是音源的打包。请在音源的路径下新建一个character.txt，然后按照以下格式写入：

name=[音源名称]

image=[音源头像路径]

author=[作者名称]

sample=[示例音频文件名]

其中，author和sample可以不写。sample不写的话UTAU会自动找寻音源内的原音文件作为示例。

在写完character.txt后，请以Shift-JIS格式保存该文件。然后将剪裁为1:1比例的头像文件放置到音源根目录内，文件名与你填入character.txt的一致。

然后新建一个readme.txt（也可以叫read me.txt），然后在这个文件里填入这个音源的自述信息。

这两个文件内的内容最后会这么呈现：

你也可以使用VoiceBank Manager（av39539318）帮助你完成其中的部分操作。

如果你录制的是多音阶音源，在做好别名差分和将原音文件合理放置后。你需要在UTAU内修改prefix.map来使UTAU自动调用对应音阶。通过”工具”-“编辑prefix.map”命令可以打开该窗口：

通过该窗口修改自动调用的后缀即可，一般说来，均匀分配每个录制的音阶即可。

之后便是打包与发布。注意，如果是日语音源，推荐使用Bandizip压缩成zip，并且要在设置中关闭压缩zip的UTF-8文件名功能，这样可以使打包出来的音源在其他语言环境的电脑上依旧正常使用。

之后就是将音源上传到网盘，许多音源配布者会使用bowlroll（http://bowlroll.net/）（B碗）配布自己的音源，当然你也可以使用自己喜欢的网盘。

最后调首配布曲，做一个配布视频，在配布视频的说明里写上自己的配布链接，有想法的话可以来UTAU中华组wiki上个户口。有能力的可以自己建一个配布站点。

自制音源的流程大致如此。

吞音现象怎么解决

先看吞了什么音。

如果吞的是辅音，可能是前面的音符/休止符太短，可以适当延长前面的音符，或者加大本音符的辅音速度；也有可能是原音设定出错，可以检查一下原音设定和音符属性中的Pre和Ovl。

如果吞的是韵尾，那么请先检查自己是否正确拆音，然后适当调整韵尾所在音符的长度和（或）Ovl。

如果吞的是韵头，那么有可能是辅音速度太快，也有可能是原音读的太短，可以试着减小辅音速度。

在UTAU里，我的WAV文件后面似乎多出了一截

就像图中所示，后面多出了一截明显不是WAV文件本身应有的内容。

这一般是因为在音频编辑软件中导出WAV时选择了让软件在WAV文件内包含元数据：

而这些元数据UTAU本体并不能正常解读，而是认为这是WAV文件的一部分。

只要用音频编辑软件打开，取消勾选再次保存即可。

如何调跨语种？

跨语种其实就是在当前语种中找到与另一种语种相似的发音并使用，换而言之就是一种空耳。对于如何优雅的调出好听的跨语种超出了本文的讨论范围，或许看一些跨语种的调声晒会有帮助，也可以尝试咨询一些有经验的人。不过，如果连非跨语种都调不好的话，还是先好好练习一下调声先为好，因为跨语种可能会牵涉到许多比较复杂的概念，可能需要比较深厚的调声基础。

什么是uar格式/为什么我下载下来的音源/插件是uar格式的？

.uar（UTAU Installer Archive）格式是UTAU的扩展安装格式，实际上是带有记录了安装相关信息的install.txt的zip文件。直接打开该文件或拖动到UTAU界面上会让UTAU自动进行安装操作，不过注意，此时UTAU会将音源/插件等安装到用户目录（%AppData%/UTAU），而不是UTAU本体所在位置，不过使用时是一样的。

什么是录音的BGM，为什么录连续音源的时候需要BGM

录音时使用的BGM顾名思义，便是在录音时播放的背景音乐，一般会由软件自动在录制过程中播放。

在录音用BGM中，从一个特定时间开始，你会每隔一拍听到一个明显音符，这个明显音符便是对你的提示，提示你要念当前录音条目中对应的发音。

BGM还有着特定的音高，用于指导你念出特定音高的发音。在录制时，请尝试着跟着BGM的音高走。

录制时使用BGM的好处显而易见，一是可以帮助你录制特定的音高，二是帮助你保持稳定的节奏，为原音设定减少负担。

目前UTAU有什么自动根据英文单词拆分音符的工具吗

没有（什么好的解决方案），手拆，请。

为什么我调出的音频听起来有些跑调/什么是移调（modulation）

因为UTAU的移调机制。移调机制是让引擎在合成歌声时，附加原音中的音高变化到目标文件。

说起来有些复杂，所以还是展开来讲一下。

上面说过，引擎会检测原音的音高，来获得自己应该对音频进行变化的音高差值（比如原音是147Hz D3，目标是196Hz G3，那么就有了49Hz的差值，这就是引擎要变化的量）。在这种检测过程当中，引擎会使用这些数据得出一个平均值，作为该文件的平均音高。而移调，就是在计算音高差值时，附加上原音音高和平均值之间的差值的影响。也就是原音音高会对合成后的音高有着影响。

~~（就是原本怎么跑调合成完还怎么跑调的意思）~~

……说的好像很难搞懂的样子，嘛，简单来说就是把移调设置为0就好。这样就不会跑调了。

前言