デジタルアシスタント、ビデオゲームキャラクター、企業ビデオ用のカスタムAI音声アクターを構築しているWellSaid LabsやVocaliDなどのスタートアップを見てください(Karen Hao / MIT Technology Review)

by PCJISAKUTECH
0 comment


同社のブログ投稿は、90年代の米国のインフォマーシャルの熱意に溢れています。 WellSaid Labsは、クライアントが「8人の新しいデジタル声優」に期待できることを説明しています。 トービンは「エネルギッシュで洞察力に富んでいます」。 ペイジは「落ち着いて表現力豊か」です。 Avaは「洗練され、自信があり、プロフェッショナル」です。

それぞれが本物の声優に基づいており、その肖像は(同意を得て)AIを使用して保存されています。 企業は、これらの声をライセンスして、必要なことを何でも言うことができるようになりました。 音声エンジンにテキストを入力するだけで、自然なサウンドのパフォーマンスの鮮明なオーディオクリップがスプールされます。

WellSaid Labsシアトルを拠点とするスタートアップで、研究非営利のAllen Institute of Artificial Intelligenceからスピンアウトした企業は、クライアントにAI音声を提供する最新の企業です。 今のところ、企業のeラーニングビデオの音声を専門としています。 他のスタートアップは デジタルアシスタントコールセンターオペレーター、さらには ビデオゲームのキャラクター

少し前まで、このようなディープフェイクの声は、 詐欺電話 そして インターネットの策略。 しかし、それらの品質の向上は、それ以来、ますます多くの企業の興味をそそりました。 ディープラーニングにおける最近の進歩により、人間の発話の微妙な点の多くを再現することが可能になりました。 これらの声は一時停止し、すべての適切な場所で呼吸します。 彼らは自分のスタイルや感情を変えることができます。 話す時間が長すぎるとトリックを見つけることができますが、短いオーディオクリップでは、人間と見分けがつかなくなるものもあります。

AIボイスも安価でスケーラブルで、操作も簡単です。 人間の声優の録音とは異なり、合成音声はスクリプトをリアルタイムで更新することもでき、広告をパーソナライズする新しい機会を開きます。

しかし、超現実的な偽の声の台頭は、結果がないわけではありません。 特に人間の声優は、これが彼らの生活にとって何を意味するのか疑問に思っています。

声を偽造する方法

合成音声はしばらく前から出回っています。 しかし、オリジナルの声を含む古いもの Siri そして Alexa、単語と音を単に接着して、不格好なロボット効果を実現します。 それらをより自然に聞こえるようにすることは、骨の折れる手作業でした。

ディープラーニングはそれを変えました。 音声開発者は、生成されたスピーチの正確なペース、発音、またはイントネーションを指示する必要がなくなりました。 代わりに、数時間の音声をアルゴリズムに送り、アルゴリズムにそれらのパターンを独自に学習させることができます。

「私がピザハットの場合、私は確かにドミノのように聞こえることはできませんし、パパジョンのように聞こえることもできません。」

VocaliDの創設者兼CEO、Rupal Patel

長年にわたり、研究者はこの基本的な考え方を使用して、ますます洗練された音声エンジンを構築してきました。 たとえば、構築された1つのWellSaid Labsは、2つの主要な深層学習モデルを使用します。 1つ目は、テキストの一節から、アクセント、ピッチ、音色など、話者がどのように聞こえるかの幅広いストロークを予測します。 2つ目は、呼吸やその環境での声の響き方など、詳細を入力します。

ただし、説得力のある合成音声を作成するには、ボタンを押すだけでは不十分です。 人間の声をとても人間的なものにしているのは、その一貫性のなさ、表現力、そして文脈に応じてまったく異なるスタイルで同じラインを提供する能力です。

これらのニュアンスを把握するには、適切なトレーニングデータを提供し、深層学習モデルを微調整するための適切な声優を見つける必要があります。 WellSaidによると、このプロセスでは、リアルなサウンドの合成レプリカを開発するために、少なくとも1時間か2時間のオーディオと、数週間の労力が必要です。

AIボイスは、顧客との何百万ものやり取りで一貫したサウンドを維持しようとしているブランドの間で特に人気が高まっています。 今日のスマートスピーカーの普及、自動化されたカスタマーサービスエージェント、自動車やスマートデバイスに組み込まれたデジタルアシスタントの台頭により、ブランドは月に100時間以上のオーディオを生成する必要があるかもしれません。 しかし、彼らはもはや、従来のテキスト読み上げテクノロジーによって提供される一般的な音声を使用することを望んでいません。これは、パンデミックの間に、企業と実質的に関わるために店内でのやり取りをスキップする顧客が増えるにつれて加速する傾向です。

「私がピザハットの場合、私は確かにドミノのように聞こえることはできません。また、パパジョンのように聞こえることもできません」と、ノースイースタン大学の教授であり、VocaliDの創設者兼CEOであるRupalPatelは述べています。会社のブランドアイデンティティに一致するカスタムボイス。 「これらのブランドは自分たちの色について考えてきました。 彼らは自分たちのフォントについて考えました。 今、彼らは自分たちの声がどのように聞こえるかについても考え始める必要があります。」

企業は、米国北東部と米国南部、またはフランスとメキシコなど、さまざまな市場でさまざまな音声アクターを雇う必要がありましたが、一部の音声AI企業は、アクセントを操作したり、単一の音声の言語をさまざまな方法で切り替えたりできます。 これにより、誰が聞いているかに応じてストリーミングプラットフォームに広告を適応させる可能性が広がり、声の特性だけでなく、話されている言葉も変化します。 ビールの広告は、たとえばニューヨークとトロントのどちらで再生しているかに応じて、別のパブに立ち寄るようにリスナーに指示することができます。 広告とスマートアシスタントの音声をデザインするResemble.aiは、SpotifyとPandoraでこのようなパーソナライズされたオーディオ広告を立ち上げるために、すでにクライアントと協力していると述べています。

ゲームおよびエンターテインメント業界にもメリットがあります。 笑ったり泣いたり、ささやいたり叫んだりできる感情的な声を専門とする会社であるSonanticは、ビデオゲームメーカーやアニメーションスタジオと協力して、キャラクターにナレーションを提供しています。 クライアントの多くは、合成された音声をプリプロダクションでのみ使用し、最終的なプロダクションでは実際の声優に切り替えます。 しかし、ソナンティック氏によると、おそらく行数の少ないキャラクターのために、プロセス全体でそれらを使用し始めた人もいます。 Resemble.aiやその他の企業は、映画やテレビ番組と協力して、言葉が文字化けしたり発音が間違ったりしたときに俳優のパフォーマンスにパッチを当てています。

[embedded content]

しかし、AIがどこまで行けるかには限界があります。 オーディオブックやポッドキャストに必要となる可能性のある音声のリアリズムを長期間にわたって維持することは依然として困難です。 また、ディレクターが人間のパフォーマーをガイドできるのと同じように、AIボイスのパフォーマンスを制御する機能はほとんどありません。 Resemble.aiの創設者兼CEOであるZohaibAhmedは、CGIテクノロジーがまったく新しい世界を作成するのではなく、主に修正に使用されていた時代と比較して、「私たちはまだ合成音声の初期段階にあります」と述べています。緑色の画面。

人間味

言い換えれば、人間の声優はまだ消えていません。 表現力豊かで創造的で長い形式のプロジェクトは、今でも人間が行うのが最善です。 また、これらの企業が作成するすべての合成音声について、声優は元のトレーニングデータも提供する必要があります。

しかし、一部の俳優は自分たちの生活についてますます心配するようになっていると、米国の声優を代表する組合であるSAG-AFTRAのスポークスマンは述べています。 AIによって自動化されることを恐れていない場合、彼らは不当に補償されたり、ブランドや評判を構成する声を制御できなくなったりすることを心配しています。

これは今です 訴訟の対象 アプリの組み込みのナレーション機能が彼女の許可なしに彼女の声の合成コピーを使用していると主張するカナダの声優BevStandingによってもたらされたTikTokに対して。 スタンディングの経験もそれを反映しています スーザンベネット、American Siriの元の声で、最初の録音に対しては支払われましたが、何百万ものAppleデバイスでの彼女の声の類似性の継続的な使用に対しては支払われませんでした。

一部の企業は、声優業界との関わり方についてより説明責任を果たしたいと考えています。 SAG-AFTRAの担当者によると、最高のものは、声優の仕事を補償し、尊重するための最善の方法を見つけるために組合に働きかけました。

現在、いくつかは利益分配モデルを使用して、クライアントが特定の合成音声をライセンスするたびに俳優に支払いを行っています。これにより、受動的な収入の新しい流れが開かれました。 他の人は、AIの類似性を設計するプロセスに俳優を関与させ、それが使用されるプロジェクトに対して拒否権を与えます。SAG-AFTRAはまた、俳優を彼らの声の不正なレプリカから保護するための法律を推進しています。

しかし、VocaliDのPatelにとって、AI音声のポイントは、最終的には人間のパフォーマンスを再現したり、既存のナレーション作業を自動化したりすることではありません。 代わりに、彼らがまったく新しい可能性を開くことができるという約束があります。 将来、合成音声を使用して、オンライン教材をさまざまな対象者に迅速に適応させることができるとしたらどうでしょうか。 「たとえば、都心部の子供たちに手を差し伸べようとしているのなら、その声が実際に彼らのコミュニティからのもののように聞こえたら素晴らしいと思いませんか?」

アドブロックテスト (なぜ?)



Source link

You may also like

Leave a Comment