NTT Comが生成AI向けのデータ構造化技術「rokadoc」のパブリックベータ版を公開。非構造化データを高精度に構造化し、企業の生成AI活用を促進。
この技術は、企業が保有する非構造化データ(PDF、HTML、画像、各種文書など)を高精度で構造化データに変換することを目的としています。
近年、生成AIを活用する企業が増加する中、非構造化データが多く存在し、生成AIが正しく理解できないことが課題となっています。
rokadocは、図表を含む非構造化データをタグ付けされたテキストデータに変換し、生成AIの利用を促進します。
具体的には、企業のマニュアルをもとに質問に回答するチャットボットや、生成AIを用いたナレッジ検索の精度向上に寄与することが期待されています。
rokadocは、Word、PowerPoint、Excel、PDFなどのドキュメント形式に対応し、テキストや画像を高精度に区分けする独自のレイアウト解析技術を備えています。
さらに、画像から説明文を生成する機能や、複雑な表構造にも対応する能力を持ち、結合セルや罫線の有無にかかわらず、構造化されたテキストで表構造を出力できます。
NTT Comは、rokadocをRAGの検索に適用することで、他の類似技術よりも高い精度を確認しており、今後はパブリックベータ版を通じて顧客のフィードバックを集めながら、精度を高めて本格提供に向けた準備を進めるとしています。
また、2025年度からはパートナー企業と連携し、データ加工技術やデータマネジメント基盤、コンサルティングサービスを組み合わせた統合ソリューションを提供し、企業における生成AIのデータ活用を推進する計画です。
参考リンクhttps://news.yahoo.co.jp/articles/9bd02a88a3f238883d596dd679843113a26d99ad