UTAU―CVVC音源の歌わせ方（『AUTO CVVC』使用）

CVVC音源はUTAUの機能拡張プラグインの「AUTO CVVC」があれば簡単にCVVC化できます。「AUTO CVVC」を使ってのCVVC化から基本的な完成状態にして歌わせるまでをサンプルを使って実際に作業しながら解説します。

はじめに

　今回の記事の作業内容は前回の続きになっています。
　前回の記事ではサンプルを使って入力時の基本操作を説明しています。音符や歌詞の入力に関する基本的な操作方法についてはこちらを参照して下さい。

UTAUの使い方・基礎から入力作業まで

歌声合成ソフトUTAUのメイン画面の解説や基本的な操作方法と歌詞・音符を入力する時の作業の流れを実際にサンプルを入力しながら説明します。クロスフェードとエンベロープについても少し説明します。

free2songwrite.com

2018-04-12 01:08

　使用しているサンプルがこちらです。今回もこの続きを作りながら説明させていただきます。
　　

　前回ではサンプルの前半８小節分の音符と歌詞の入力をしましたのでこんな風になっています。

　今回はまずここまでに入力した前半の８小節分を一応基本的な完成状態（ピッチ曲線やエンベロープを細かく調声して作り込む前の段階）まで仕上げ、それをコピペして後半８小節を編集します。自分でもやってみながら読み進めたい方は上の画像の状態まで音符と歌詞を入力してください。

　ちなみに今回の記事の内容で実際にサンプルを歌わせたのがこちらになります。
音源は「波音リツ Eve」を使用し、DAWでの調整なしでUTAUからWAV出力した音声をそのまま圧縮してMP3にしています。

「AUTO CVVC」によるCVVC化

　AUTO CVVCは「【UTAUプラグイン】autoCVVC2.0配布所」　で入手して下さい。インストール方法もこちらのサイトで参照願います。

　「AUTO CVVC」がインストールできたら、当然ですが使用する音源をCVVC音源にしておいて下さい。音源の変更は上部メニューバーの「プロジェクト」から「プロジェクトのプロパティ」を選択し、「原音ファイルセット」の横のドロップダウンリストから選択して下さい。

　現状の歌詞を入れたそのままの状態はCVVCで言うCV音（子音＋母音）だけの状態です。
CVVCの場合はこれにつなぎ用のVC音（母音＋子音）を挿入してクロスフェードします。
AUTO CVVCはこのVC音を自動的に挿入してくれます。

　ではCVVC化します。音符入力エリアのどこでも良いので右クリックし、メニューから「全て選択」をクリックして下さい。
全ての音符が選択状態になったら上部のメニューバーの「ツール」をクリックし、メニューの「プラグイン」をマウスポインターで指して、リストの「auto cvvc」を選択すると「autoCVVC」のウィンドウが出ます。

　
「ノートを変換する」と「CVVC」もしくは「最適化」にチェックを入れて「実行」を押します。これでCVVC化されました。

　画像のようにVC音が挿入されています。

「最適化」と「CVVC」がどう違うかは私もよく分かりません、未確認ですが「一部のCVVC音源では「CVVC」だと上手くいかない」と書いてあるサイトもあったので「最適化」でやった方が良いのかも知れません。不確かな情報で申し訳ありませんが使われる音源で試してみて下さい。ちなみに私が波音リツeveで試した限りではどちらでも同じくちゃんと出来ました。

クロスフェードとオートピッチ

　CVVC化したら次はクロスフェードさせて、オートピッチで音符間の音程をピッチ曲線でつなぎます。これで一応CVVCとして歌わせられるので、再生してみながら「クロスフェード最適化」という操作を行います。
　それで問題なければ、音量を調整してフレーズ内のダイナミクスを整えればこの部分は今回の目標までは出来た事になります。

クロスフェード

　クロスフェードさせると言っても、この段階の操作は左上の５つ並んでいるボタンのうちの「クロスフェードのエンベロープをp1とp4で設定」か「クロスフェードのエンベロープをp２とp3で設定」のどちらかを適用するだけです。クロスフェードとp1、p2、p3、p4の説明については前回の記事を参照して下さい。

　「p1とp4」、「p2とp3」のどちらでするかはその人のやり方次第なのですが、私の場合は「p2とp3」でやってます。理由は、短い音符の場合、後ろの音の先行発声が前の音符の固定範囲より前に出てしまう事があります。この場合の対処としてp1を音量ゼロのまま後ろにずらして前の音の固定範囲を回避します。この為にp1を元の位置に置いておきたいので。まぁ色々考え方はあると思いますので慣れて色々分かってきたら自分のやり方として決めれば良いかと思います。それまでは色々試してみて下さい。

　では、右クリックメニューから「全て選択」して、どちらかのボタンを押してクロスフェードさせます。

オートピッチ

　続いた音符間の音程差を徐々に音程を変化させ、滑らかに繋ぐのを「ポルタメント」といいます。オートピッチはピッチ曲線を作り出して自動的にポルタメントしてくれます。
見づらいかも知れませんが下の画像で音符をつないでいる赤い線がピッチ曲線です。

　オートピッチのやり方は、音符を全て選択して、メニューバーの「ツール」をクリックして「組み込みツール」を指し、「オートピッチ」を選択すると、オートピッチベンドのポップアップが出ます。
パネルの内容はそのままで構いませんので「実行」を押します。
これでポルタメントされました。
設定されたピッチ曲線は自由に編集でき、このピッチ曲線の作り込みが大きな調声の要素の一つなのですが、それはエンベロープ等の調声と一緒にまた回を改めてやりたいと思います。

クロスフェード最適化

　音というのは波である性質上、元の音とその逆位相の音を合わせると消音されます。ノイズキャンセラーやヴォーカルキャンセラーの原理ですね。
クロスフェードで重なっている2つの音が、重なり方によっては位相がずれて、これに近い状態になり、部分的に音が小さくなる時があります。
　クロスフェード最適化は自動的に原音の頭を少し削って重なり方を変え、位相のズレを修正します。この削る量を「STP」といい「音符のプロパティ」で確認・設定できます。
「音符のプロパティ」は音符を右クリックしてメニューから選択します。

　UTAUではデフォルトの設定で、再生すると音声化する時の中間ファイルがキャッシュとして一時的に保存されます。キャッシュを保存するかどうかの設定はメニューバーの「ツール」から「オプション」を選択し、オプションウィンドウの「キャッシュ」のタブで設定できます。
　クロスフェード最適化にはキャッシュが必要なので「中間ファイルをキャッシュする」の設定になっている必要があります。

　では取り敢えず再生してみます。再生は選択した部分が再生されますので、全ての音符を選択してから再生します。
再生したらキャッシュができていますので左上の先程の「クロスフェードのエンベロープをp1とp4で設定」の右隣の「クロスフェード最適化」ボタンを押すと「適用範囲のキャッシュファイルを削除しますか？」というアラートが出ますので「はい」を選択します。
　これで一回目のクロスフェード最適化が終わりましたがクロスフェード最適化は一回では完全に出来ず、何回かする必要があります。ですので再生→クロスフェード最適化を何回か繰り返します。
　完全に出来ると（それ以上最適化出来なくなると）クロスフェード最適化ボタンを押したら「対象なし／最適化済み／キャッシュがありません」というアラートが出ます。
ただ、クロスフェード最適化はたまに上手くいかない時もあります、必ずしも完全になるまで繰り返さなければいけない訳でもありませんので、何回かして良くなったと思えばそこでやめても良いと思います。

ビブラート

　聞いてみると長い音符に若干違和感を感じるかも知れません。そういう所にすこしビブラートを入れるとより自然な歌い方になります
ビブラートも自動で入れることも出来るのですが手動で入れる事をおすすめします。設定方法は入れたい音符を右クリックしてメニューの「ピッチ…」を選択すると下の様なピッチコントロールウィンドウが出ます。

「ビブラート」にチェックを入れます。設定内容は後で画面上で調整したほうがやりやすいのでそのまま「OK」を押します。

　画像の様にビブラートが入って音符の下にビブラートの設定を表す図が表示されています。
図の各位置をドラッグして動かし調整します。

開始位置	前の直線を前後にドラッグして開始位置を調整。
位相	小さな四角を前後にドラッグして位相を調整（波を前後にずらす感じ）
入	開始時間から設定した深さに達するまでの時間を調整。
出	設定した深さから収束し始めるタイミングを調整。つまり入から出までが設定した深さが維持される時間になります。
高さ	上下にドラッグすると「入」から「出」までの区間のピッチが上下します。
周期	小さな四角を前後にドラックしてビブラートの周期の大きさを調整。
深さ	長方形の上辺または下辺を上下にドラッグして深さを調整。

　コツとしては長く伸ばした音符の後ろの部分にあまり大きく掛けずに控えめに調整する事でしょうか

音量バランスの調整

　ここで音量と言うのは音符毎の音量で、音符の上に表示されています。
デフォルトは１００になっていて調整可能範囲は０～１２０です。調整方法は音符の上辺を上下にドラッグします。各音符の音量の強弱を調節してフレーズ全体のダイナミクスを整えるのが調声の目的です。
　実はこの調声は今回でやるかどうか迷ったのですが、やっておくことにします。
と言っても感覚的な面が大きいので明確には説明しづらいのですが、留意すべき点なのは以下の点でしょうか。

・フレーズの頭から強めに入るのか弱めに入って途中のどこかでピークになるのか
・基本的なリズム形、特にアクセントの位置
・同じ音量なら高い音程の方が強く聞こえる。

　最初の点を考慮しながら自分で実際に歌ってみるか、頭の中で想像して強弱の変化がどうなるのが良さそうか考えます。

　２番目のリズム形はバックの楽器より歌の方を先に作っているとまだはっきりと決まっていない事もあるかと思いますが、その場合でも何拍目にアクセントを置くかを考えて、アクセントの位置で強めにするようにすると収まりやすいです。一般的な８ビートのリズム形なら２拍目と４拍目がアクセントの位置になります。

　更に３番目の点を意識しながら実際に強弱をつけてみる。という感じでしょうか、あくまで私の考え方ですが。
一例として、私のやってみたのが下の画像です。

コピー＆ペーストと編集

　曲の一部をある程度先に作り、それをコピーして歌詞を変更する等の編集を行うやり方の解説です。

コピー＆ペースト

　コピーはコピーしたい範囲を選択し、メニュバーの「編集」、もしくは選択した音符を右クリックしたメニューから「コピー」を選択します。
　貼り付けは休符の挿入と同様に選択した音符の前に貼り付けられますので、一番後ろに貼り付けたい時は右クリックメニューから「選択の解除」、もしくは矢印ツールで最後の音符の後ろの何も無い所でクリックして選択を解除してからどこでも良いので右クリックして「貼り付け」を選択します。

歌詞の置換

　貼り付けが完了したら、順番はメロディーの修正とどちらが先でも良いのですが、今回はまず歌詞の変更を行います。
　CVVCの場合はこのまま通常通り範囲を選択して「歌詞を置換」するとVC音にも歌詞が入ってしまうので、一旦単独音に戻してから歌詞を替える等の編集を行い、再びCVVC化するという手順で行います。

　貼り付けた範囲を選択して、メニューバーの「ツール」から「プラグイン」を指し「autocvvc」を選択します。

　画像のように「ノートを変換する」と「単独音」にチェックを入れ「OK」を押します。

　もしVC音が残っていたら、その消したい音符をクリックして選択し、右クリックメニューから「削除」で消します。その前の音符の長さが短くなっていますので、「Shift」キーを押しながら短くなった音符の終端をドラッグして本来の長さに戻します。

　単独音化しましたので後は通常通り歌詞入力欄に歌詞を入れて範囲を選択し、「歌詞を置換」ボタンを押して歌詞を替えていきます。

メロディーの修正

　楽譜に従ってメロディーを修正します。
音符の下の線の辺りをつかんでドラッグして移動させられます。休符も同様に移動出来ます。
幾つかの音符をまとめて動かしたいたい時は、ウインドウの下左端の四角に「M」の表示（オートピッチまでの画像を参照）がなければクリックして「M」が表示された状態にし、動かしたい範囲を選択すると選択範囲が一緒に動かせます。

　メロディーの修正が終わったら再度CVVC化します。
範囲を選択してメニューバーの「ツール」から「プラグイン」を指して「autocvvc」を選択し、「最適化」もしくは「CVVC」にチェックを入れて「OK」を押します。
その後も、先程と同じくクロスフェードさせ、クロスフェード最適化します。

調声の確認

　貼り付けた時に音量の調節やビブラートもコピーされていますので、編集した部分を聞いてみて気になる部分があれば再調整し、自分で納得出来る状態になれば終わりです。

　エンベロープの本格的な調整はまた回を改めて説明しますが、聞いてみてフレーズの最後の長い音符が急に切れる感じで終わるのが気になった方もおられると思います。その場合は音符を右クリックして「エンベロープ…」を選択し、画像の様に角になっている点（この画像だとp3をドラッグして前へずらして調整出来ます。エンベロープのパネルを閉じる時は「OK」ボタンを押して下さい。

BREと「Y」、「ｇ」フラッグ

　簡単にできる調声をもうひとつ紹介します。
音符のプロパティに「BRE」というパラメータと下の方に「Flags」という欄があります。「Flags」は定められたアルファベットと数値を入力して色々な設定を変えられます。
詳しくはもう少し本格的な調声法としてまた別の回で解説する予定ですが、全体に掛けて比較的簡単に調声できるBREとフラッグを２つだけ紹介します。
紹介するフラッグは「Y」と「ｇ」です。

　BREは息成分を付加するパラメーターであり標準値が５０で０～１００の間で設定できます。大きくするとかすれた様な声になって子音の発声が強調されます、小さくするとクリアな感じになります。Yフラッグは固定範囲以外（つまり母音部）のBREを抑え、子音部の何％にするかの数値を０から１００で指定します。例えば「BRE５０　Y２０」ならBREは子音部が５０、母音部が１０になります。BREが大きいと母音の伸ばした部分がノイズの混ざってザラザラした感じになる時がありますが、Yフラッグを小さめに設定すると子音の発声を変えずにそれを抑えられます。
　

ｇフラッグは声質の「太さ」を調整するパラメータで標準値が０で「＋」もしくは「-」の数値で指定します。＋にすると男声っぽい太い声になり、-にすると子供っぽい声になります。女声音源を男声として使う、みたいに元の声質と全く変えたいのでなけれ＋７～-７くらいで調声すると良いかと思います。

　どちらも音源の声質によって適した調声は全く違うと思いますが、今回のサンプルメロディーなら少しだけｇ＋気味が合う気がします。よかったら色々試してみて下さい。
ちなみに冒頭の音声サンプルでは全体に「g+3」で設定しています
フラッグの設定の仕方は音符を選択し、右クリックメニューの「プロパティ」を選択して「音符のプロパティ」に下の画像のように入力します。複数のフラッグを指定する時は「,」で区切ります。

　もちろん全体に掛けても、一部分だけを選択して掛けても構いません。　

子音が削れて聞こえる時の対処法

　最後にもう一点、聞いてみると子音が削れた様な感じになっている時が稀にあります。今回私が作った中でも一箇所、「ながれた」の「れ」が「え」に聞こえるくらい子音が聞こえづらくなっていました。

　こういう場合最も多い原因は、クロスフェード最適化の際「STP」の値が大きくなり過ぎて、極端な場合子音を削ってしまっていたり、そこまでいかなくとも発声のタイミングが前へ大きくずれる事によって起こります。
「STP」というのは原音の前から削る量ですから、「STP」と「原音で設定されている先行発声」と「エンベロープで設定した先行発声」の関係は、

「STP」＋「エンベロープで設定した先行発声」＝「原音で設定されている先行発声」

にならないと発声のタイミングがずれます。逆に言うと意図的にずらすテクニックにも使える訳ですが、それはさて置き。

　なので、「STP」の値を確認して、原音で設定された先行発声の値に近いくらいに大きくなっていると問題が発生します。今回のケースだと原音で設定された先行発声が「７７」でSTPが「４６．０９５」になっていました。
STPを一旦０にし、エンベロープの先行発声を原音通りに設定してクロスフェードすると子音の発声は治りましたので、一応クロスフェード最適化を３回繰り返したところで「大体滑らかになったかな」と思ったのでそこで止めてもう一度STPを確認したら「１．９１７」になっていました。

もし子音が聞こえづらいという症状があったら、こんな感じでSTPをチェックして修正してみて下さい。もし、STPが正常ならエンベロープで先行発声の設定がおかしいいのだと思います。

最後に

　最後のSTPと先行発声の話は少し込み入っていて分かり難かったかも知れませんが前回のクロスフェードの説明と合わせて、取り敢えずは何となくイメージとして分かってもらえれば良いかと思います。
　調声は凝って突き詰めていけばキリがないと思うのですがエンベロープやピッチ曲線等を調整してもう少し本格的に作り込んでいく方法をまたそのうち書きたいと思います。