MaskGCT：音声合成の新時代と中国製コンテンツの海外進出

中国のAIスタートアップが開発した音声合成モデル「MaskGCT」は、超リアルな音声クローンを数秒で生成し、多言語対応も可能です。これにより、中国製コンテンツの海外進出が加速することが期待されています。

要約すると中国のAIスタートアップ「趣丸科技」は、香港中文大学・深圳校と共同で開発した音声合成モデル「MaskGCT」をオープンソースの音声生成ツールキット「Amphion」で公開しました。

このモデルは、従来のテキスト音声合成（TTS）モデルとは異なり、マスク言語モデルと音声コーデック技術を融合させたもので、音声クローン生成や多言語合成、音声制御を迅速に行うことができます。

MaskGCTの主な特長として、まず、超リアルな音声クローンを数秒で生成できる点が挙げられます。

3秒間の音声サンプルを入力することで、人の声やアニメの声、ささやき声など、さまざまな声色を生成し、語調や口調、感情を完璧に再現します。

次に、生成する音声の長さやスピード、表現を柔軟に調整できるため、テキストによる音声編集も可能です。

さらに、質の高い多言語音声データセット「Emilia」を使用しており、これにより中国語、英語、日本語、韓国語、フランス語、ドイツ語の6種類の多言語合成が実現されています。

MaskGCTは、AI共同研究室で開発されたもので、音声生成のプロセスにおいて自己教師あり学習（SSL）モデルを用いた2段階のモデルを採用しています。

このモデルは、音声の質や類似性、明瞭性が非常に高く、特に音声生成の時間を制御できる点が特徴です。

MaskGCTはショートドラマやデジタルヒューマン、AIアシスタント、オーディオブック、教育支援など多岐にわたる分野での活用が期待されています。

また、趣丸科技は、AIプラットフォーム「趣丸千音」を開発し、迅速な多言語翻訳を実現。

これにより、中国製コンテンツの海外進出が加速することが期待されており、2024年のショートドラマ海外進出白書によると、23年の海外ショートドラマ市場は中国市場の約12倍の650億ドルに達しています。

このように、MaskGCTは中国製コンテンツの国際展開において重要な役割を果たすことが見込まれています。

最近の投稿