日本語対応の自然な音声対話AI「J-Moshi」の登場

名古屋大学が公開した音声対話AI「J-Moshi」は、日本語に対応し、人間のような自然な会話が可能です。軽量ながらも、相槌や質問を同時に行える特性を持っています。

要約すると名古屋大学情報学研究科の東中研究室は、2025年1月24日に日本語に対応したリアルタイム音声対話AIモデル「J-Moshi」を公開しました。

このモデルは、7Bという軽量なサイズながらも、人間に近い自然な応答を実現しています。

J-Moshiは、相槌や発話のオーバーラップといった人間同士の会話に見られる特徴を持つ「full-duplex音声対話システム」であり、同時に「聞く」と「話す」ことができる仕組みを備えています。

この技術は、英語のfull-duplex音声対話システム「Moshi」を基に開発され、日本語で利用可能な最初のシステムとなります。

開発チームは、J-Moshiが人間と自然に会話する様子を収めた動画を公開しており、実際に人間が話している最中に相槌を打ったり、関連する質問をする様子が確認できます。

生成AI特有のぎこちなさが若干感じられるものの、注意深く聞かなければ相手がAIであることに気づかないレベルの自然さを誇ります。

また、同研究室は、2025年3月10日から長崎で開催される「言語処理学会第31回年次大会（NLP2025）」でJ-Moshiに関する詳細な発表を予定しています。

J-Moshiの登場は、音声対話技術の進化を示す重要なステップであり、今後の利用が期待されます。

最近の投稿