随着人工智能 (AI) 的不断发展,其基础架构必须不断发展,才能满足不断增长的数据存储和处理需求。在人工智能基础设施生命周期中,数据存储发挥着关键作用,解决方案必须能够在当前和未来,承受住 AI 相关的挑战。
每天产生的数据量是惊人的。根据 Kaleido Intelligence 报告1,智慧城市每天会产生 143PB 数据,而自动驾驶汽车每天则会产生 TB 级数据,对高效数据存储解决方案的需求比以往更加迫切。自动驾驶汽车公司会将大量数据上传到云服务提供商,经过处理后用于优化 AI 模型。持续的数据流需要强大的存储解决方案,来满足 AI 应用所需的数据量和速度需求。
尽管目前的焦点集中在像图形处理单元 (GPU) 这样的前沿技术上,但硬盘仍然是人工智能基础设施中至关重要的组成部分。这些硬盘为用于 AI 训练和推理的海量数据集提供必要的存储容量。在数据处理的重负由 GPU 承担的同时,硬盘则存储供这些过程使用的数据。这种协同关系确保了 AI 系统能够高效运行,而不会因存储限制而造成瓶颈。
AI 基础设施面临的最大挑战之一是平衡性能与功耗。随着 GPU 集群的规模扩大,运行所需的功率也大幅增加。例如,像 AI 领先企业这样的部署涉及数千个 GPU,每个 GPU 会消耗大量电力。这就需要存储解决方案不仅提供高性能,还能在功耗方面高效运行。为了更直观地理解,单个 GPU 的功耗可达到 700 瓦,而大规模部署可能涉及多达 10 万个 GPU,所需的电力达到 70 兆瓦。这个功率需求相当于一个大型数据中心的总电力分配。因此,存储解决方案必须设计成在最大化性能的同时,尽可能降低功耗,以便能够与 GPU 一起融入整体解决方案中。
在 AI 训练过程中,检查点对于防止系统故障导致进度丢失至关重要。这些检查点会定期保存 AI 模型的状态(例如,每几分钟保存一次),使得训练过程可以从上次保存的状态继续,而不是从头开始。这一点对于持续时间长、可能持续数周甚至数月的训练尤为重要。高效的检查点管理需要快速的存储解决方案,能够迅速保存和读取大量数据。
例如,一些大型训练平台在训练过程中每分钟进行一次检查点,将数据保存到固态硬盘 (SSD) 上,然后再转移到机械硬盘。这一过程确保了即使发生故障,训练也能以最小的数据损失继续进行。这些检查点的大小可能相当庞大,有些模型每个检查点需要高达 12TB 的存储空间。
硬盘因其可扩展性、成本效益、能效、可持续性以及耐用性,成为 AI 检查点存储的重要组成部分。
展望未来,AI 存储的需求预计将呈指数级增长。根据 Bloomberg Intelligence、IDC、eMarketer 和 Statista 的数据2,到 2032 年,AI 存储市场预计将达到 920 亿美元。这一增长将受到 AI 模型日益复杂以及 AI 在各个行业广泛应用的推动。为了满足这些需求,存储解决方案将需要变得更加先进,提供更大容量、更快速度以及更高的能效。
目前,业界正在探索多项技术创新,以应对 AI 基础设施的存储需求:
AI 基础设施的存储需求正在快速演进,受到数据量的指数级增长和 AI 模型日益复杂的推动。未来,必须开发能够满足这些需求的存储解决方案,使 AI 系统能够持续发展,实现其变革行业和改善生活的潜力。