NTT Comが3拠点での生成AI学習の実証実験に成功。分散データセンターを活用し、GPUリソースの効率的な利用を目指す。
要約するとNTTコミュニケーションズ(NTT Com)は、IOWN APNを活用し、東京の三鷹・秋葉原と神奈川県の川崎に設置された3拠点の分散データセンターで生成AI学習の実証実験に成功しました。
この実験では、NVIDIAのH100 GPUサーバーを分散配置し、NTTの独自LLM「tsuzumi」の分散学習を行いました。
データセンター間は100GbpsのIOWN APNで接続され、結果として単一データセンターでの学習とほぼ同等の性能を確認しました。
露崎浩太氏は、生成AIのモデルサイズの増大に伴い、複数のGPUを用いた分散学習が必要であると述べ、単一のデータセンターではリソースの限界があることを指摘しました。
この実証実験は、分散したGPUリソースを効率的に利用する「GPU over APN」の実用化に向けた重要な一歩となりました。
さらに、NVIDIA NeMoを活用した分散学習フレームワークにより、マルチノードでのスケーラビリティが確認され、コスト削減や持続可能な運用が期待されています。
今後、NTT Comは日本全国の分散データセンターの拠点数増加やGPUリソースの最適化を進め、ユーザーのニーズに応じた柔軟な運用を目指すとしています。
参考リンクhttps://news.yahoo.co.jp/articles/1778fff8d83faf5284e446bb1950d2e34f785447