歌声合成ソフトUTAUとは ―その概要とダウンロード

歌声合成ソフトUTAUとは ―その概要とダウンロード

UTAUはPCで自由に歌を作って歌わせられる歌声合成ソフトです。フリーで使用可能で、知らない方が想像する以上に高品質の歌が作れます。UTAUについて「UTAUとは何か」からダウンロード・インストール方法、UTAU音源の基礎知識まで解説します。

スポンサーリンク
レスポンシブ

・UTAUとは

 DTMで歌ものを作りたい時、自分で歌って録音せずに、PC上でヴォーカルトラックを作れるソフトがUTAUです。以前にも少し書きましたが、UTAUををおすすめする理由は、以下の2点です。

・フリーでも使用できる。
・音源が豊富にあるので好きな音源が選べる。

フリーでも使用できるというのは、UTAUサポートペーにも書いていますが、一応形式的にはシェアウェアになっているのですが支払いは任意で、そのままずっとフリーで使い続けても構わないそうです。詳しくはダウンロードする時にでも確認して下さい。

 UTAUはスタンドアローンのアプリケーションですので、入力・調声して出来た歌を音声ファイルとして出力し、DAWでMIXするという流れになります。
 入力画面はDAWと同様のピアノロールとなっており、そこで歌詞とメロディーを打ち込み調声します。主な調声する要素は、以下の通りです。

  • ピッチ曲線(ポルタメントとビブラート)
     ポルタメントは音符と次の音符の音程差を曲線で繋ぐのですが、単になめらかに繋ぐだけでなく、複雑な曲線でも描けます。
    実際の人の歌は音程が外れている訳ではなくとも、ビブラートやしゃくり等のテクニックも含めて、ピッチ変化のグラフで見るとピッタリ楽譜通りの音程に収まっている時間は意外と少ないものです。言わばそれを再現する訳です。
  • エンベロープとボリューム
     エンベロープというのは一つの音符内のボリュームの変化で、UTAUでは最大5点で、各ポイントのボリュームとタイミングをコントロールできます。それと合わせて各音符ごとのボリュームを調整する事で歌い方のダイナミクスを作り出せます。
    私は割りとダイナミクスにこだわる方なのですが、調声を公開されているのを見るとエンベロープを細かく作りこむ人は少数派かも知れません。
  • 音のプロパティ
     息の成分を調整したり、Flagsというアルファベットと数字の組み合わせ、等で声質を調声出来ます。「C50」ならローパスフィルターを50%かける、といった具合です。

 これらを調整する事で歌い方を作り込んで行きます。
調声の自由度はかなり高く、望むなら相当に凝って調声出来るのもUTAUの魅力であると私は思います。逆にあまり手間を掛けたくなければ、MIDIファイルからメロディーを読み込む機能等もありますし、一部の操作を自動化して簡単にできる機能拡張プラグインを組み込んで使うこともできます。

・UTAUの仕組み

 仕組みと言っても原理を正確に理解している訳ではないので、UTAUでは具体的にどんな処理を行っているのか、の大体のイメージです。

 まず、素材となる音源(音声ライブラリー)は音源提供者の方が録音した、必要な発音をカバーした音声ファイルのセットです。
 音声ライブラリーから、指定された「あ」とか「か」といった一音節分をコピーして、フェードアウトとフェードインを重ねるクロスフェードという方法で繋げていくと歌詞通りの発音が作られます。これにピッチシフト/タイムストレッチという処理が施されて歌になります。ピッチシフト/タイムストレッチ処理とは、通常は音声の再生速度を変えるとピッチ(音の高さ)と再生時間が変わります。これをピッチを変えずに再生時間を変える、あるいは再生時間を変えずにピッチを変える処理をピッチシフト/タイムストレッチ処理といいます。

 つまり行われている処理というのは大雑把に言えばクロスフェードでの編集とピッチシフトの2つと言う事になります。
ピッチシフターはDAWにも付属していたりします。普通に人が歌ったヴォーカルトラックを切り貼りして編集し、ピッチシフターで音程を整えればやっているのは同じ様な処理は訳で、すごく極論を言えば、UTAUとの違いは程度問題とも言えます。
 何が言いたいかというと、「合成」だからといってあまり過剰に人工的なロボっぽいイメージを持つ必要もないという事です。

・UTAUのダウンロード

 UTAUは元々はWindows向けに作製されたソフトだったのですが、その後、UTAU synthという名前でMac移植版が発表されました。ダウンロードサイトも別々になっています。
ただ、現在もMac版は試用ライセンスのみとなっています。
 私はMac環境を持っていないので確認できないのですが、既に試用中で、既存の試用ライセンスの残量が何日であっても常に認証した日から30日にリセットされる、という事だと思います。

Windwsの方
1.UTAUサポートページ に行きます。説明に目を通したら上部のリンクからダウンロードページに飛び、インストーラーをダウンロードします。

2.ダウンロードしたファイルを解凍し、インストーラーを起動してください。
特に迷う選択等もないと思います、インストールウィザードにしたがってインストールを完了してください。

Macの方

1.UTAU synth のサイトに行きます。内容を確認し、上部のリンクからダウンロードページに飛んでください。

2.更にUTAU-Synth for MacOSXの欄にあるリンクからインストールガイドのページを見て、それに従ってインストールして下さい。

・音声ライブラリーについて

 UTAUにはデフォルトで唄音ウタ(デフォ子)という音源が入っていますが、先にも書いたように配布されている音源の多さがUTAUの魅力でもあります。
 音源を探すのはニコニコ動画のUTAU音源配布所リンク 等で聞いてみて気に入った音源を選んでください。
とは言っても、沢山有りすぎて選ぶのに困るかも知れません。声質の好みは人それぞれだと思いますが、一応私のおすすめを次回ご紹介したいと思います。
 今回は音源の種別について解説します。

クロスフェードの重ね方による音源の種別

上記の「UTAUの仕組み」で、一音節分をコピーし、クロスフェードという方法で繋げると書きましたが、このクロスフェードで音節のどこを重ね合わせるかによって音源の種別が分かれ、それに伴って歌詞の入力方法等が変わってきます。これは現在以下の三種類あります。

単独音

 単独音は一音節がそのまま一音になります。ですので例えば、歌詞が「し」「ま」と続くときは「し」の母音のiと「ま」の子音が繋がります。母音と子音の違う発声部分が繋がりますの重ねあわせる長さは僅か(場合によっては重ねない)です。UTAUが出た当初はこの単独音でした。

連続音(VCV)

 海外ではVCVと呼ばれます。Vは母音、Cは子音の意味で、普通の一音節は子音+母音なのでCVとなります。連続音(VCV)音源はその英語名の通り一音分が「iま」の様に前に母音をつけた形になります。例えば歌詞が「しま」と続くときは「ま」が「iま」になって前の「し」の母音のiと後ろの「iま」のiを重ねます。これだと同じ発音をしっかり重ねられますので自然に繋がる訳です。
 デメリットとしては音源製作者の方の負担が大きくなる事と単独音より歌詞の入力が少し面倒になる事でしょうか。
最近次のCVVC音源も増えて来たみたいですが、やはり一番多いのはこの連続音だと思います。

CVVC

 繋がり方を分かりやすく表記すればCVーVCーCVです。CV(つまり単独音と同じ)の間にVCをいれて繋ぎます。「し」「ま」の場合「し」「im」「ま」となり、連続音同様に同じ発音同士を重ねます。ただ、子音の発音は短いので重ねあわせる長さも子音部は短くなります。
 三種の中では最も新しい仕様で連続音と比べたメリット・デメリットはメリットとしては音源製作者の方の負担が連続音より少ない事、デメリットは使う側の調声時の手間が掛かる事でしょうか。ただし調声は機能拡張プラグインにCVVCの入力補助のAutoCVVCとかもありますし、子音部の重ね方で、溜めて子音を強調した歌い方等より凝った調声が出来るという面もありますで一概には言えませんが。

多音階音源とキレ音源について

 上記の分類方法とはまた別に単音階音源/多音階音源という表現もあります。これも「UTAUの仕組み」に書いたように、ピッチシフト/タイムストレッチ処理によって入力したメロディー通りに歌わせるのですが、その処理の際、原音の音程から離れる程強く処理を掛ける事になるので当然それによる音質の変化も大きい訳です。ということは、いくつかの異なる音程の原音を用意して、近い音程を使えばそれだけ影響も少なくなり、自然な声になります。これが多音階音源です。
 多音階音源のもう一つのメリットは、人が普通に歌った時、メロディーの低音部と高音部で歌い方が違う筈です。多音階音源だとそれに合わせて違う歌い方の原音を用意できるのでよりリアルな歌が作れます。キレ音源というのも多音階音源の一種で、定義がはっきりしない所もありますが、この二番目のメリットを活かして低音部で抑えぎみで高音部で強い発声で録音し、prefix.mapという設定がされていて音程によって使用する原音が自動的に決定される音源を指します。ちなみにprefix.mapは元々設定されていなくても、自分で設定することも可能です。

・最後に

  一応UTAUについて何も知らない方にある程度どんなものかというイメージを持ってもらう様に書いたつもりなのですが、いざ説明しようとする難しいものですね。どうだったでしょうか?
 途中でも書いた様に次回におすすめのUTAU音源をご紹介する予定ですが、選ぶ決め手はやはり声質が好きかどうかだと思うので、私の好みが入ってしまうかも知れませんが、参考にしていただけたら幸いです。

スポンサーリンク
レスポンシブ