本ニュースの3行要約
- 3FSは最新のSSDとRDMAネットワークを活用し、従来のファイルシステムの6倍の処理速度を実現。
- ランダムリードを重視し、読み取りキャッシュをほぼ無視する設計でトレーニングと推論を高速化。
- 競合と比較して50%のコストと60%の電力消費で、80%のパフォーマンスを達成。
DeepSeekが「3FS」をオープンソース化。AIファイルシステムの新時代へ
中国のAI企業DeepSeekは、AI訓練および推論向けに最適化された高性能分散ファイルシステム「3FS(Fire-Flyer File System)」をオープンソース化しました。[1]
3FSは最新のSSDと高速ネットワーク技術を活用し、従来のファイルシステムと比較して最大6倍の処理速度を実現。特に大規模AIワークロードの効率向上を目的に設計されています。
3FSの主要な技術革新として、FUSE技術による柔軟な分散アーキテクチャやCRAQを活用した高信頼性データ管理、AIワークロードに最適化されたキャッシング機構(KVCache)などが挙げられます。
また、ベンチマーク結果では読み取りスループット6.6TiB/秒を達成するなど、高いパフォーマンスを示しました。 3FSは、AIデータ処理の効率化だけでなくコストとエネルギー消費の削減にも貢献し、NVIDIA DGX-A100クラスターと比較して50%のコスト、60%の電力消費で80%のパフォーマンスを実現しています。
「ストレージノード×計算ノード」最適化によりAIワークロードを効率化
DeepSeekの「3FS」はストレージノードと計算ノードの連携を最適化することで、AIワークロードの高速化と効率化を実現しています。従来の分散ストレージシステムではデータ転送のオーバーヘッドやI/Oボトルネックが課題とされていました。
3FSは最新のNVMe SSDと高帯域幅ネットワーク(InfiniBand 2×200Gbps)を活用し、ストレージノードと計算ノード間のデータ転送を大幅に高速化しています。 また、3FSはAIワークロード向けに最適化されており、データローディングやチェックポインティング、推論時のキャッシング(KVCache)を強化することでモデル訓練や推論の処理速度を向上させています。
特にランダムリードの最適化によってデータ取得のレイテンシを削減し、大規模データセットのトレーニング時間を短縮することが可能。 ベンチマーク結果では3FSを180台のストレージノードと数百台の計算ノードで運用した環境において、最大6.6TiB/秒の読み取りスループットを達成しています。
これらの最適化によって3FSは、従来のストレージシステムと比較して最大6倍の処理速度を実現。AIトレーニングおよび推論ワークロードの効率化に大きく貢献しています。
3FSのオープンソース化と今後の展望
DeepSeekは2025年2月24日から開催された「Open Source Week」において、3FSをオープンソース化すると発表しました。このイベントではNVIDIA Hopperアーキテクチャ向けのMLAデコードカーネル「FlashMLA」や、MoE(Mixture of Experts)モデル向け通信ライブラリ「DeepEP」など複数の技術が公開されています。
3FSのソースコードはMITライセンスのもとで公開されており、GitHub上でアクセス可能です。AI開発者や研究者がこの技術を活用することで、高性能なストレージ基盤の構築が容易になりAIの学習・推論のさらなる高速化が期待されます。
DeepSeekの取り組みによってAIトレーニングと推論のインフラは新たな進化を遂げ、AI技術のさらなる発展を促進するものとなるでしょう。
References
- ^ DeepSeek. 「3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.」 https://github.com/deepseek-ai/3FS, (参照 2025-03-03).