AIの声優はこれまで以上に人間味があり、採用する準備ができています

by PCJISAKUTECH
0 comment


同社のブログ投稿は、90年代の米国のインフォマーシャルの熱意に溢れています。 WellSaid Labsは、クライアントが「8人の新しいデジタル声優」に期待できることを説明しています。 トービンは「エネルギッシュで洞察力に富んでいます」。 ペイジは「落ち着いて表現力豊か」です。 Avaは「洗練され、自信があり、プロフェッショナル」です。

それぞれが本物の声優に基づいており、その肖像は(同意を得て)AIを使用して保存されています。 企業は、これらの声をライセンスして、必要なことを何でも言うことができるようになりました。 音声エンジンにテキストを入力するだけで、自然なサウンドのパフォーマンスの鮮明なオーディオクリップがスプールされます。

WellSaid Labsシアトルを拠点とするスタートアップで、研究非営利のAllen Institute of Artificial Intelligenceからスピンアウトした企業は、クライアントにAI音声を提供する最新の企業です。 今のところ、企業のeラーニングビデオの音声を専門としています。 他のスタートアップは デジタルアシスタントコールセンターオペレーター、さらには ビデオゲームのキャラクター

少し前まで、このようなディープフェイクの声は、 詐欺電話 そして インターネットの策略。 しかし、それらの品質の向上は、それ以来、ますます多くの企業の興味をそそりました。 ディープラーニングにおける最近の進歩により、人間の発話の微妙な点の多くを再現することが可能になりました。 これらの声は一時停止し、すべての適切な場所で呼吸します。 彼らは自分のスタイルや感情を変えることができます。 話す時間が長すぎるとトリックを見つけることができますが、短いオーディオクリップでは、人間と見分けがつかなくなるものもあります。

AIボイスも安価でスケーラブルで、操作も簡単です。 人間の声優の録音とは異なり、合成音声はスクリプトをリアルタイムで更新することもでき、広告をパーソナライズする新しい機会を開きます。

しかし、超現実的な偽の声の台頭は、結果がないわけではありません。 特に人間の声優は、これが彼らの生活にとって何を意味するのか疑問に思っています。

声を偽造する方法

合成音声はしばらく前から出回っています。 しかし、オリジナルの声を含む古いもの Siri そして Alexa、単語と音を単に接着して、不格好なロボット効果を実現します。 それらをより自然に聞こえるようにすることは、骨の折れる手作業でした。

ディープラーニングはそれを変えました。 音声開発者は、生成されたスピーチの正確なペース、発音、またはイントネーションを指示する必要がなくなりました。 代わりに、数時間の音声をアルゴリズムに送り、アルゴリズムにそれらのパターンを独自に学習させることができます。

「私がピザハットの場合、私は確かにドミノのように聞こえることはできませんし、パパジョンのように聞こえることもできません。」

VocaliDの創設者兼CEO、Rupal Patel

長年にわたり、研究者はこの基本的な考え方を使用して、ますます洗練された音声エンジンを構築してきました。 たとえば、構築された1つのWellSaid Labsは、2つの主要な深層学習モデルを使用します。 1つ目は、テキストの一節から、アクセント、ピッチ、音色など、話者がどのように聞こえるかの幅広いストロークを予測します。 2つ目は、呼吸やその環境での声の響き方など、詳細を入力します。

ただし、説得力のある合成音声を作成するには、ボタンを押すだけでは不十分です。 人間の声をとても人間的なものにしているのは、その一貫性のなさ、表現力、そして文脈に応じてまったく異なるスタイルで同じラインを提供する能力です。

これらのニュアンスを把握するには、適切なトレーニングデータを提供し、深層学習モデルを微調整するための適切な声優を見つける必要があります。 WellSaidによると、このプロセスでは、リアルなサウンドの合成レプリカを開発するために、少なくとも1時間か2時間のオーディオと、数週間の労力が必要です。

AIボイスは、顧客との何百万ものやり取りで一貫したサウンドを維持しようとしているブランドの間で特に人気が高まっています。 今日のスマートスピーカーの普及、自動化されたカスタマーサービスエージェント、自動車やスマートデバイスに組み込まれたデジタルアシスタントの台頭により、ブランドは月に100時間以上のオーディオを生成する必要があるかもしれません。 しかし、彼らはもはや、従来のテキスト読み上げテクノロジーによって提供される一般的な音声を使用することを望んでいません。これは、パンデミックの間に、企業と実質的に関わるために店内でのやり取りをスキップする顧客が増えるにつれて加速する傾向です。

「私がピザハットの場合、私は確かにドミノのように聞こえることはできません。また、パパジョンのように聞こえることもできません」と、ノースイースタン大学の教授であり、VocaliDの創設者兼CEOであるRupalPatelは述べています。会社のブランドアイデンティティに一致するカスタムボイス。 「これらのブランドは自分たちの色について考えてきました。 彼らは自分たちのフォントについて考えました。 今、彼らは自分たちの声がどのように聞こえるかについても考え始める必要があります。」

以前は、企業はさまざまな市場(米国北東部と米国南部、またはフランスとメキシコ)でさまざまな音声アクターを雇う必要がありましたが、一部の音声AI企業は、アクセントを操作したり、単一の音声の言語をさまざまな方法で切り替えたりできます。 これにより、誰が聞いているかに応じてストリーミングプラットフォームに広告を適応させる可能性が広がり、声の特性だけでなく、話されている言葉も変化します。 ビールの広告は、たとえばニューヨークとトロントのどちらで再生しているかに応じて、別のパブに立ち寄るようにリスナーに指示することができます。 広告とスマートアシスタントの音声をデザインするResemble.aiは、SpotifyとPandoraでこのようなパーソナライズされたオーディオ広告を立ち上げるために、すでにクライアントと協力していると述べています。

ゲームおよびエンターテインメント業界にもメリットがあります。 笑ったり泣いたり、ささやいたり叫んだりできる感情的な声を専門とする会社であるSonanticは、ビデオゲームメーカーやアニメーションスタジオと協力して、キャラクターにナレーションを提供しています。 クライアントの多くは、合成された音声をプリプロダクションでのみ使用し、最終的なプロダクションでは実際の声優に切り替えます。 しかし、ソナンティック氏によると、おそらく行数の少ないキャラクターのために、プロセス全体でそれらを使用し始めた人もいます。 Resemble.aiやその他の企業は、映画やテレビ番組と協力して、言葉が文字化けしたり発音が間違ったりしたときに俳優のパフォーマンスにパッチを当てています。



Source link

You may also like

Leave a Comment