ElevenLabsの声生成ツールがベータ版からローンチ

By 毎日新聞です On Thursday, May 30 2024

ElevenLabsは、合成音声を作成するためのウイルスAIパワードプラットフォームで、本日、30以上の言語をサポートするプラットフォームをベータ版からローンチしました。

自社で開発した新しいAIモデルを使用し、ElevenLabsは、韓国語、オランダ語、ベトナム語を含む言語を自動的に識別し、これらの言語で「感情豊かな」音声を生成できると述べています。

新しいモデルと組み合わせて、ElevenLabsの顧客は、テキストを入力することなく、ほぼ30の言語で話すための声クローニングツールを活用できます。

「ElevenLabsは、すべてのコンテンツを任意の言語と声で普遍的にアクセス可能にするという夢を持って立ち上げられました」とElevenLabsのCEO兼共同創業者であるMati Staniszewskiは声明で述べています。「このリリースにより、この夢を現実のものにする一歩を踏み出し、あらゆる方言で人間の品質のAI声を利用可能にし、トップクオリティの音声生成ツールをすべてのクリエイターにもたらすことができます。」

過去数ヶ月にわたり、Palantirで働いていたStaniszewskiと、元Googleの従業員である幼なじみのPiotr Dabkowskiによって設立されたElevenLabsは、良い理由と忌まわしい理由の両方でヘッドラインを飾ってきました。アメリカの映画の平凡な吹き替えにインスパイアされ、スタニシェフスキとダブコフスキは、もっと良いものを作ることができるプラットフォームをデザインすることに取り組みました — もちろんAIを利用して。

ElevenLabsは1月下旬にベータ版でローンチし、高品質の生成された声と寛大な無料層のためにすぐに注目を集めました。しかし、前述のように、その宣伝は一貫してポジティブではなかった — 特に悪質な行為者が自分たちの目的のためにプラットフォームを悪用したとき。

有名な掲示板4chanは、陰謀的なコンテンツで知られるそこで、俳優のエマ・ワトソンなどの有名人を模倣した憎悪メッセージをElevenLabsのツールを利用して共有しました。別のところでは、The VergeのJames VincentはElevenLabsを使ってターゲットの声を数秒でクローンし、暴力の脅迫から人種差別やトランスフォビアの表現までを含むオーディオサンプルを生成しました。

ElevenLabsは、有料アカウントに音声クローニングを制限し、新しいAI検出ツールを提供するなど、一連の新しい保護策を導入すると述べています。

ElevenLabsは、他のプラットフォームなどで発生しているもう一つの論争にまだ取り組んでおらず、声優業界への脅威についてです。

Motherboardによると、声優は、顧客がAIを使って自分たちの代わりに合成バージョンを生成できるようにするために、ますます権利を譲渡するよう求められています。一方、ニューヨーク・タイムズが目にした内部のメールによると、世界最大のゲームパブリッシャーであるActivision Blizzardは、「声クローニング」を支援するAIツールを開発しています。

ElevenLabsは、StorytelやTheSoul Publishing、MNTNなどのパブリッシャーとの協力、オーディオブックやラジオコンテンツのためのメディアプラットフォーム、およびビデオゲームのためのEmbark StudiosやParadox Interactiveなどのパブリッシャーとの協力を誇りとしています（StorytelとTheSoul Publishingは戦略的投資家です）。同社によると、クリエイティブ、エンターテイメント、出版などの領域にいますで100万人を超える登録ユーザーが10年分の音声コンテンツを作成しています。

最近、Andreessen HorowitzやDeepMind共同創業者のMustafa Suleymanなどから合計19百万ドルの資金調達を行ったElevenLabsは、最終的には声の吹き替えにそのAIモデルを拡張し、PapercupやDeepdubなどのスタートアップの足跡に続いて、「ある言語から別の言語に感情やイントネーションを転送できる基盤」と称するものを作り上げる予定です。

また、ElevenLabsは、「プラットフォームで声を共有できるメカニズムを導入する予定ですが、詳細はまだぼやけています。」