NTT Comが3拠点のデータセンターでGPUクラスタを利用し、世界初のLLM学習実験に成功。生成AIの進展に対応した持続可能な運用を目指す。
要約するとNTTコミュニケーションズ(NTT Com)は、IOWN構想の中心技術であるオールフォトニクスネットワーク(APN)を利用し、3つのデータセンターに分散配置したNVIDIA H100 GPUサーバーで、NTT版大規模言語モデル(LLM)「tsuzumi」の学習実証実験に成功したことを発表しました。
この実験は、世界初の成功事例であり、生成AIやデータ利活用の進展に伴うGPUクラスタの重要性を再確認するものです。
NTT Comは、単一データセンターでの限界を克服するために、三鷹と秋葉原の2拠点から川崎を加えた3拠点のデータセンター間でのAPNによるGPUクラスタの実効性を検証しました。
この取り組みにより、余剰GPUサーバーの再利用が可能になり、地域のデータセンターを活用して計算を分散することで、電力コストの削減と持続可能な運用を実現することを目指しています。
実証実験では、約25~50km離れた川崎、三鷹、秋葉原の各データセンターを100Gbps回線で接続し、NVIDIA NeMoを使用してtsuzumiモデル7Bの分散学習を行いました。
結果、IOWN APNを介した分散データセンターは、単一データセンターとほぼ同等の性能を発揮し、所要時間の大幅な短縮が確認されました。
今後、NTT Comは全国での分散データセンター配置を進め、APNで接続されたデータセンター間の通信方法やGPUリソースの最適化検証を行う予定です。
また、APN専用線プランや超省エネ型データセンターサービス「Green Nexcenter」を組み合わせたGPUクラウドソリューションの提供も目指しています。
参考リンクhttps://news.yahoo.co.jp/articles/fdba5fcc37bbab284f9fed2b9543980b7a6f57ce