名古屋大学が公開した音声対話AI「J-Moshi」は、日本語に対応し、人間のような自然な会話が可能です。軽量ながらも、相槌や質問を同時に行える特性を持っています。
要約すると名古屋大学情報学研究科の東中研究室は、2025年1月24日に日本語に対応したリアルタイム音声対話AIモデル「J-Moshi」を公開しました。
このモデルは、7Bという軽量なサイズながらも、人間に近い自然な応答を実現しています。
J-Moshiは、相槌や発話のオーバーラップといった人間同士の会話に見られる特徴を持つ「full-duplex音声対話システム」であり、同時に「聞く」と「話す」ことができる仕組みを備えています。
この技術は、英語のfull-duplex音声対話システム「Moshi」を基に開発され、日本語で利用可能な最初のシステムとなります。
開発チームは、J-Moshiが人間と自然に会話する様子を収めた動画を公開しており、実際に人間が話している最中に相槌を打ったり、関連する質問をする様子が確認できます。
生成AI特有のぎこちなさが若干感じられるものの、注意深く聞かなければ相手がAIであることに気づかないレベルの自然さを誇ります。
また、同研究室は、2025年3月10日から長崎で開催される「言語処理学会第31回年次大会(NLP2025)」でJ-Moshiに関する詳細な発表を予定しています。
J-Moshiの登場は、音声対話技術の進化を示す重要なステップであり、今後の利用が期待されます。
参考リンクhttps://news.yahoo.co.jp/articles/41d572cc721d366bc56066567af3adb8f62c5875