【UTAU】エンベロープを作り込む

　UTAUのエンベロープの調整についてはネット上にも情報は少なく、それぞれが試行錯誤で調整方法を見つける感じでしょうか。私も自分なりのやり方で調声しています。これが一般的に正しいと言えるかは分かりませんが私のエンベロープ調整方法を説明します。

エンベロープの調整について

　という訳で、今回は私のエンベロープ調整方法について説明しますが、冒頭にも書いたように一般的に言ってこのやり方が正しいのか変なのかは分かりません、あくまで私個人の意見として参考にして頂けたらと思います。

　今回は入力し終わったモノにエンベロープの調整をして作り込んでいく過程の解説です。基本的な入力等については「UTAU」のカテゴリーから過去記事をご覧下さい。

　まず私は、UTAUの画面右上の「クロスフェードのエンベロープを設定」のボタンによる自動設定は使わず全てマニュアルで値を入力しています。

　最初の頃は自動設定をして、それに手を入れていたのですが、最終的には自然と大体決まった形になるので、それを基本形に決めて必要な部分を手入力で変更した方が早いと思うようになって今のやり方に落ち着いてます。

　ただ、「拡張エンベロープエディタ」というプラグインもあり、多分これを使用した方が手間はかからないと思うのですが、私の場合UTAUを始めた時に、PC環境の問題だと思うのですが、このプラグインが機能しませんでしたので使っていません。今はPCも変わっていますし使えるのですが、使わずにやるのが習慣になっていて使っていません。

　使ってみたい方は「ZteerのUTAU関連物置き場」のページでダウンロードして下さい。その場合操作方法は変わると思いますので、以下はどういう形に調整するかの参考として読んでもらえたらと思います。

エンベロープの基本形

　先にも少し書いた様に、まずエンベロープの基本形を決めて、それを「音符のデフォルト」に記憶させてます。

　ちなみに下記の説明に使った画像のpre（先行発声）は連続音は波音リツ・キレ、CVVCは波音リツEVEの原音値です。音源によっては違うかもしれませんのでお使いの音源の原音値から計算して下さい。

連続音の基本形

　連続音はCVVCと違って音の種類もVCVの1種類だけですし、その分、音の数も少ないのでエンベロープの調整は比較的単純で手間も少ないです。
　連続音の基本形は下の画像の様にしています。

　画像ではエンベロープウィンドウに点線で前の音とのオーバーラップを書き込んでいます。赤い点線が前の音のエンベロープで黒の点線がオーバーラップの足し合わせた線になります。

　私は画像の様に頭（子音部の頭）からｖ３まで減衰させ、次の音符の頭の近くでクロスフェイドさせます。そのためp1をクロスフェイドさせたい位置迄ずらしていますので「ovl」が本当のオーバーラップの幅と異なります。

　基本的に決めるのは本当のオーバーラップの幅・オーバーラップの終わりから次の音符の頭までの幅（画像で「Ａ（任意の値）」と書いている部分）・ｖ３　の３つです。後はそこから自然と決まってきます。

　Ａは音符の頭でアタックに入る上りになりますので、小さくするとボリュームの変化も小さくなって、アタックが弱めで前の音と滑らかにつながる感じになり、大きくすると1音々々切り気味にアタックを強調した感じになります。

　オーバーラップの幅はそれ自体はあまり極端な値でない限りそれ程大きな影響は有りませんが、この設定の場合はオーバーラップの幅を大きくするとＡにつながる前の部分の傾きが緩くなるのでアタックがやや弱くなります。

　前の音のｖ３を小さくするとアタックそのものは変わりませんが、前の音が大きく減衰するのでＡを大きくした時と似た感じで切り気味になり、相対的にアタックを強調します。

　私の場合は、オーバーラップの幅が８０、Ａが５０、ｖ３が８０を基本値にしています。その3つと音源の原音値から計算するとエンベロープの各パラメーターは以下の様になります。

　pre＝原音値

　ovl＝pre－Ａ

　p2 ＝オーバーラップの幅＋Ａ
ｖ2＝１００

　p1 ＝pre－p2
　　＝ovl－オーバーラップの幅
　v1＝０

　p3＝オーバーラップの幅
　v3＝８０

　が各パラメーターの基本値です。

CVVCの基本形

　CVVCの場合も各パラメーターの計算は基本的に同じです。ただCVVCの場合は音の種類がCV音とVC音の2種類になりますのでその分多少複雑になり、手間も増えます。

　連続音がVCVですのでCVVCのVC＋CVが連続音の1音分でCV音の黒い線が音符の頭になります。

　下の画像は上がVC音、下がCV音の基本形です。

　当然ですが、VC音は前がV（母音）のクロスフェイド、後ろがC（子音）のクロスフェイド、CV音は前後逆になります。

　Vのクロスフェイドは連続音と同じですので、オーバーラップの幅が８０、ｖ３が８０にしています。クロスフェイドの位置が連続音より前になりますのでｖ３は９０とかでもいいです。

　Ｃのクロスフェイドはpreの原音値が小さいのでオーバーラップの幅が３５、Ａが１５、にしていますが、preの原音値が５０未満の場合は更に小さくする必要があります。ｖ３は８０にしています。

　各パラメーターの計算は、VC音は「pre・ovl・p2・v2・p1・v1」の値がVのクロスフェイドに関する値で、「p3・v３」がCのクロスフェイドですが、VC音の子音部の頭（画像の黒い線）は連続音と違い音符の頭ではありませんから連続音で説明したAは取りませんので、p2はオーバーラップの終わり（画像の青い線）に合わせています。そのため「p2＝オーバーラップの幅」となります、他は連続音と同じ計算です。

　CV音は「pre・ovl・p2・v2・p1・v1」がCのクロスフェイド、「p3・v3」がVのクロスフェイドになります。

　多少分かり辛いかも知れませんが、CV音の黒い線が音符の頭です。その後ろにVC音が繋がり、次のCV音の黒い線が次の音符の頭になります。

　で、後ろの音符の頭に注目して考えると、連続音でいう前の音のｖ３はVのクロスフェイドの前側の点なので、CVVCだと前のCV音のｖ３に当たります。連続音でいうＡ、つまり音符の頭のアタックに向けての上りはVC音のp3（設定によってはp2）から後ろのCV音の黒い線までの上りがそれに当たります。

　つまり、CVVCでアタックの強さを調整する大きな要素はVC音のp3時点の音量です。p3時点の音量というのはVC音のエンベロープのv3とVC音自体の音量で決まりますので、CVVCではVC音の音量を調整する事でアタック感の強弱を調整でき、必要なら更にエンベロープを弄るというやり方ができます。この調整については後述します。

　エンベロープの設定にはCVVCの方が手間がかかりますが、それさえやってしまえば、後の細かな調整はCVVCの方がやり易いかも知れません。

基本形の入力

　連続音の場合は音符のデフォルトに基本形を記憶させておけば最初入力した時からデフォルトに設定したエンベロープが適用されていますので簡単です。

　問題はCVVCですが、実は私はAutoCVVCの「AutoCVVC for Namine 1.23(A)」というバージョンを使っているのですがこれだとCV音をデフォルトにしておけばCVVC化してもCV音はエンベロープがそのままだったのですが、現行バージョンのAutoCVVCではCVVC化した時にエンベロープが変わってしまい、デフォルトが使えません。少し面倒ですがすべての音符のエンベロープを手入力で設定するか、拡張エンベロープエディターを使うしか無い様です。個人的には手入力で設定した方が簡単に思います。

連続音の場合

　連続音の説明なのに画像がEVEになっていますが気にしないで下さい、すいません。

　エンベロープのデフォルトを設定するには、上部のツールバーから「ツール（T)」＞「音符のデフォルト（D)」＞「エンベロープ（E)」を選択します。するとエンベロープウィンドウが出て、ここで設定したエンベロープがデフォルトとして記憶されます。

　先のエンベロープの基本形をデフォルトとして記憶させるのですが、preとovlは記憶しませんので下の画像の様になります。

　デフォルトに記憶させれば、音符を入力して歌詞を連続音にした後、各音のエンベロープウインドウで、最初の前が「－」になった音は原音値のボタンを押してp2をpreと同じに、他の音は原音値のボタンを押してovl＝pre－Ａにすればすべてのエンベロープが基本形になっている筈です。

CVVCの場合

　VC音を手入力で入れていくのは大変ですので、AutoCVVCを使用する前提で書きます。

　「パラメータを調整する」のチェックは外してCVVC化します。「クロスフェイドする」はどちらでも良いです。

　CVVC化してエンベロープウィンドウを開くと、preとovlに原音値で入っていると思いますので、「ovl」「p2」「p1」「p3・v3」を入力します。ちなみに前の音符から順番に入力するとCV音とVC音が交互になりますが、CV音ならCV音だけVC音ならVC音だけを先にまとめて入力した方が分かりやすいと思います。

　上記の設定ならCV音は、

ovl＝pre－１５、p2＝５０、p1＝pre－５０、p3＝８０、v3＝８０

　VC音は、

ovl＝pre－５０、p2＝８０、p1＝120、p3＝３５、v3＝８０

ですが、preの原音値が５０未満ならCV音はovl＝３５、p2＝pre、p1＝０となります。

音符毎のエンベロープ調声

　エンベロープを全て基本形にしたらその状態で聞いてみて、必要と思った箇所を調整していきます。

アタック感の調整

　エンベロープを調整するのはアタック感の強弱とそこからの減衰を調整するのが大きな理由だと思います。アタック感を強く1音々々をくっきり歌わせたい所とアタック感を弱く滑らかに流れるように歌わせたい所があると思います。アタック感の強弱とは音符の頭の直前から音量が急激に大きな差で上がるとアタック感が強く感じられます。

連続音の場合

　連続音の場合下記の方法でアタック感が強くなり、逆にすると弱くなります。

ovlの値を小さくする。（Aが大きくなる）
p1を大きく、同じ分だけp2と前の音のp3を小さくする。（本当のオーバーラップが小さくなる）
前の音のv3を小さくする。

CVVCの場合

　CVVCの場合前のVC音の音量はCV音よりも15～20くらい小さめを基本とします。そこから前の音のVC音を下げるとアタック感が強くなり、上げると弱くなります。更に必要なら下げたVC音（と場合によってはその前のCV音）のv3を下げると強くなります、弱めるのは次の項目の調整も参考にして下さい。

CVVCでのVC音のv2とv3の関係

　CVVCの基本形の所で「連続音でいうＡ、つまり音符の頭のアタックに向けての上りはVC音のp3（設定によってはp2）」と書きましたが画像の様にv2とv3の値を逆にしてv2の方が小さくすれば後ろの音符の頭へ向かう上りはp2から始まることになり、より長い時間をかけてなだらかな上りになりますのでアタック感は弱くなる訳です。

　この場合VC音の音量は大きめにして、前のCV音のv3は滑らかにつながるように調整します。

ロングトーン

4分音符以上の長い音符の場合下の画像の様に2山の形にした方が良い場合があります。後ろの山で途中のビートを拾う訳です。

　画像は選択状態になっている「わ」の音のエンベロープで、この場合小節の頭を跨ぎますので2山目をその位置に合わせています。

　デフォルトではp5は有りませんがその横の「e」のボタンを押すとp2とp3の間に現れます。このp5を谷にしてp3を2山目にします。そうするとp3が前に行ってしまい、この場合の様に音符の終わり部分が弱くなり過ぎたり、途中の音符の場合は後ろのクロスフェイドに対応するためにp4を動かします。

ピッチ曲線とエンベロープの関連

　うろ覚えなのですが確か何かの本で読んだと思うのですが、その筆者の方は昔マイケル・ジャクソンの歌のピッチと音量のグラフを見てその２つがキレイに一致しているのに感心した、という様な事を書いておられました。ただし必ずしも一致していた方が良いとは言い切れない、という事ですが。

　その話を思い出して、ピッチ曲線とエンベロープのタイミングが合うように調整すると確かに自然な感じでキレイな歌い方に聞こえる気がします。

　例えば下の画像の様な感じです。

　画像の「に」の様にロングトーンで2山にして、そこにビブラートが掛かっているならエンベロープの山とビブラートの山を合わせたり、他にはエンベロープの音符頭のアタックの山に合わせてピッチ曲線にも山を作ったり等です。

　あまりこだわり過ぎる必要は無いですが、覚えておいて少し意識すると良いかと思います。

　という事で、前回の記事でピッチ曲線の調整までやったサンプルに今回説明したエンベロープの調整をしたのがこちらになります。

エンベロープ調整前（ピッチ曲線調整のみ）

エンベロープ調整後

最後に

　あまり沢山の例を知っている訳ではありませんが、波音リツのボイスプロバイダーのカノンさんがそうである様に「歌ってみた」の動画を上げるくらいに歌の上手い方というのは要領を覚えればUTAUの調声も上手いのではないかと思っています。それだけ上手く歌う事を具体的にイメージ出来ればそれをUTAUで再現する事も可能なのだという事でしょう。
　つまりUTAUの調声のコツは調声している歌の上手い歌い方を具体的に細かくイメージする事ではないかと思います。