当サイトは広告が表示されます。

動画編集ソフト VEGAS Pro 21 日本語版でも利用可能となった「Text to Speech」と「Speech to Text」

2024年4月21日MAGIX,VegasPro

これまでVEGAS Proの日本語版を、国内代理店であるソースネクストから購入した場合では利用出来なかった、「VEGAS Hub」と「Text to Speech」および「Speech to Text」が、VEGAS Pro 21の「Build300」から利用可能になりました。今回は「Text to Speech」と「Speech to Text」を試してみます。

スポンサーリンク

注記

2026年3月30日、Boris FX社はMAGIX社よりVEGAS Pro(及びSound ForgeとAcid Pro)を買収したと発表しました。MAGIXでのVEGAS Proの販売は既に終了していますが、過去製品のサポートは継続して行われるとの事(MAGIXアカウントも維持されている)。

しかし、MAGIX公式フォーラムのVEGAS Proカテゴリーは廃止され、新たにBoris FX側に開設されていますが、MAGIX側の内容は引き継がれていません。幸い、MAGIX側の廃止直前の内容はインターネットアーカイブによって保存されています。このブログに記載したMAGIX側の公式フォーラムへのリンクは、そのアーカイブ側にリンクするように修正しましたが、一部のリンクでは上手く表示出来ない可能性があります。ご了承ください。

その他、Boris FX版のVEGAS Pro(2026)については、下記記事を見て下さい。

開放された機能

2024年4月、VEGAS Pro 21がBuild300(アップデート3)に更新されましたが、これまではサブスクリプションユーザー向けの機能だった「VEGAS Hub」が、永続(買い切り)ユーザーにも開放されました(要ネット接続&ログイン)。ソースネクストから日本語版を購入する場合、買い切りのみでサブスクリプション契約は無いので、必然的に日本語版では「VEGAS Hub」は利用出来ませんでした。また同様に「Text to Speech」と「Speech to Text」もサブスクリプションユーザー向けでしたが、永続ユーザーにも開放されました。

「VEGAS Hub」では動画内で利用出来るコンテンツのダウンロードや、メディアやプロジェクトファイルの共有、クラウドストレージ(10GB)などの機能があります。「VEGAS Hub」の機能自体もBuild300で更新されている様子ですが、Build300の新機能については下記記事を見て下さい。

Text to Speech

まずは「Text to Speech」を試してみます。上記は過去にVEGAS Proで制作した動画ですが、動画内に「テキスト」でコメントを入れています。さらにそのコメントをフリーの音声合成アプリの「VOICEVOX」で音声を合成して、ナレーションとしても入れています。その方法は別途記事にしています。

メニューの「ツール」から「AIテキストトゥスピーチ」を選択します。

「AIテキストトゥスピーチ」のウィンドウが表示されます。「Voices」欄をクリックすると言語の選択が可能で、日本語では11人分の音声が表示されました。「Speech Styles」欄は感情等ではなく、チャットやカスタマーサービスといった用途の様子で、さらにスタイルを選択出来る音声は現状では限られています(上記では個別の音声に「3style」と記載あり)。

「AIテキストトゥスピーチ」のウィンドウで音声を選択し、タイムライン上のテキストをクリックして選択状態にしておきます。再び「AIテキストトゥスピーチ」のウィンドウで「Import from Timeline」をクリックします。

すると、選択していたテキストの内容が「AIテキストトゥスピーチ」のウィンドウ内に取り込まれます。次にウィンドウ下部の「Generate speech」をクリックします。

テキスト内容が音声として合成され、ウィンドウ下部の再生ボタンで試聴が出来ます。続いて「Add to Project Media」でプロジェクトメディア欄へ、「Insert on Timeline」ではタイムラインに音声が追加されます。

タイムラインに追加すると、「合成オーディオ」という音声トラック上に音声が置かれました。音声の先頭は元のテキスト位置と合っています。

さらに「AIテキストトゥスピーチ」のウィンドウで「Trancerate」をクリックします。

翻訳元と翻訳先の言語をそれぞれ選択した上で(ここでは日本語から英語)、その下の「Trancerate」をクリックします。

すると、ウィンドウ内のテキストが英語に翻訳されました。同時に「Voices」が「Multilingual」に変更されました。ここでもう一度「Generate speech」をクリックすると、今度は翻訳されたテキストが英語音声で合成されます。

英語で翻訳された音声もプロジェクトメディア欄やタイムラインに追加出来ます。既に日本語音声があったので、英語音声はその後に置かれました。意外に簡単に英語音声も作る事が出来ます。

最後に、「Switch between Text and SSML~」は音声合成マークアップ言語(SSML)による、テキスト読み上げを微調整出来る機能です(参考:Microsoft)。…正直、個人ではなかなか利用しないと思いますが。

テキストからの音声は割と正確に合成されました。読みが正しくない場合はウィンドウ内のテキストを修正(漢字を平仮名にしたり、句読点を追加)する事で可能ですが、アクセントを修正する方法は無い様子です。また他言語への翻訳については、タイムラインからテキスト内容を取り込んだ時点では直接翻訳する事が出来ず、一度日本語で音声を合成した後でないと翻訳出来ませんでした。

さらに、タイムライン上で複数のテキストを選択して「Import from Timeline」を行っても、最初のテキストしかウィンドウ内に取り込まれません。テキストが複数ある際は1つ1つに同じ作業を繰り返す必要があるので、連続で行えるバッチ処理的な機能があれば「Text to Speech」はかなり便利になると思います。しかし現状ではまだ、別途VOICEVOXを使用した形の方が簡単で楽だと思います。

Speech to Text

次に「Speech to Text」を試します。メニューの「ツール」から「AIスピーチトゥテキスト」を選択すると、上記のウィンドウが表示されます。この中の「表示」欄は「転写」となっていて、さらにトラックに置いたVOICEVOXの音声メディアの一覧が表示されています。各音声には言語選択欄(デフォルトは「自動検出」)と解析ボタンがあります。

解析ボタンをクリックすると音声の内容がテキスト化されます。解析されたテキストはここで修正が可能です。言語選択が「自動検出」では解析出来ない場合がありましたが、日本語を選択すると解析されました。※数回解析ボタンをクリックすると、解析される場合もアリ。

続いて「表示」の欄を「テキストベースの編集」にすると、解析されたテキストの個別文字に対して、音声の位置がカーソールの選択範囲となって表示されます。右クリックすると削除や分割が行えますが、これは動画内で正確に字幕(→後述)を合わせる(リップシンク)為の機能?

さらに「表示」の欄を「字幕」にします。右側の「タイトルを生成」あるいは「SRT(字幕)ファイルをエクスポート」をクリックしますが、タイトルを生成する際は「タイトルプリセット」を選択します。タイトルプリセットとはメディアジェネレーターによる「タイトルおよびテキスト」の各形式です。

「タイトルを生成」をクリックすると、「スピーチからの字幕」というトラック上にタイトルプリセットで選択したテキスト形式で、音声から解析されたテキストが置かれます。

トラックにテキストを置く際には、「表示」欄の「テキストベースの編集」から自動リップルの設定が可能です。

今回は1つの音声メディアのみで試しましたが、SRTファイルをエクスポートする場合は全ての音声メディアを解析して、完成形をエクスポートします。ただし「表示」の欄を変更する事で、解析からタイトルの生成は行ったり来たりしながら行う事も可能です。

VOICEVOXで合成した音声でも正確にテキスト化出来たので驚きましたが、解析すると文字間にスペースが入ってしまいます。これはVOICEVOXだからという訳では無く、VEGAS Proの日本語の機能的な問題の様に思えます。現状ではこれを全て手動で修正する事は現実的ではありません。また今回はテキストや音声は細かくメディアとして分けていましたが、例えば会議を撮影してその中の音声をテキスト化したい場合、1つの動画ファイルの中からテキストの区切りはどうやって付けるのか?自動で区切ってメディアを分けてくれる??いちいち手動で分割する事もまた、現実的ではありません。

「Speech to Text」については表示に「ベータ」ともあるので、今後も改良される事と思います。音声合成やテキスト解析の精度は日本語でもしっかりとしているので、より使いやすい機能になってくれる事を期待します。

後日追記

「Speech to Text」はベータ版となっていますが、Build300で「AIテキストベース編集」という機能が追加されています。これまでの「Speech to Text」がどの様な物だったのか不明ですが、現状「Speech to Text」が「AIテキストベース編集」となっている模様(公式フォーラム)。上記で書いた、1つの動画ファイルから音声を検出してテキスト化した場合、テキストの他に無音区間も検出して表示、そこからカット等の作業が行える様子です。公式フォーラムではフィードバックを求めているので、今後に期待です。…ChatGPTの様な、プロンプトに入力して対話形式で編集する機能を想像していました。

注記(スクリーンショットについて)

掲載しているVEGAS Proの製品画面:©2003-2026 MAGIX Software GmbH.

その他の各ブランドやロゴ・製品名等は各製造者の登録商標です。