名古屋大学の新AI「J-Moshi」が実現する自然な日本語対話

名古屋大学が開発した「J-Moshi」は、日本語でリアルタイムに会話するAIで、自然な相槌や発話の重なりを再現。軽量モデルで感情豊かな対話が可能ですが、試作段階で応答に不自然さも。

要約すると名古屋大学が開発した日本語専用のリアルタイム音声会話AI「J-Moshi」は、ユーザーとの自然な対話を実現するために、音声に対して即座に反応し、会話の間を埋める特徴を持っています。

このAIモデルは、英語の対話システム「Moshi」を基にしており、発話の重なりや相槌を再現することで、より人間らしいコミュニケーションを可能にしています。

具体的には、「うんうんうん」や「はいはいはい」といった相槌や、「あの～」「えっーと」といったフィラーを自然なタイミングで挿入し、会話の流れをスムーズに保つことができます。

J-Moshiは、7Bという軽量なモデルサイズで設計されており、ユーザーの声に対して待つことなく、積極的に話しかけるスタイルが特徴です。

プロジェクトのサンプルを聞くと、その音声には抑揚や感情が感じられ、共感を示すような印象を与えます。

開発には大規模な日本語音声対話データが使用され、さらにMulti-stream TTSによる合成音声データを加えた「J-Moshi-ext」という拡張モデルも存在します。

ただし、現在は試作段階であり、応答が不自然な場合もあるため、雑談に特化した学習データが多く、特定の指示に対する完璧な応答は難しいとのことです。

このようにJ-Moshiは、生成AI技術の進化を感じさせる新しい試みであり、今後の発展が期待されます。

最近の投稿