行业资讯

AI 基础架构不断演进的存储需求。
时间: 2025-03-31 14:23:24 浏览次数:74
AI 存储解决方案需要不断发展,才能应对海量数据增长。双传动器硬盘、基于 NVMe 的存储以及高能效解决方案等创新,正在塑造 AI 基础架构的未来。

随着人工智能 (AI) 的不断发展,其基础架构必须不断发展,才能满足不断增长的数据存储和处理需求。在人工智能基础设施生命周期中,数据存储发挥着关键作用,解决方案必须能够在当前和未来,承受住 AI 相关的挑战。

每天产生的数据量是惊人的。根据 Kaleido Intelligence 报告1,智慧城市每天会产生 143PB 数据,而自动驾驶汽车每天则会产生 TB 级数据,对高效数据存储解决方案的需求比以往更加迫切。自动驾驶汽车公司会将大量数据上传到云服务提供商,经过处理后用于优化 AI 模型。持续的数据流需要强大的存储解决方案,来满足 AI 应用所需的数据量和速度需求。

平衡性能与功耗。

尽管目前的焦点集中在像图形处理单元 (GPU) 这样的前沿技术上,但硬盘仍然是人工智能基础设施中至关重要的组成部分。这些硬盘为用于 AI 训练和推理的海量数据集提供必要的存储容量。在数据处理的重负由 GPU 承担的同时,硬盘则存储供这些过程使用的数据。这种协同关系确保了 AI 系统能够高效运行,而不会因存储限制而造成瓶颈。

AI 基础设施面临的最大挑战之一是平衡性能与功耗。随着 GPU 集群的规模扩大,运行所需的功率也大幅增加。例如,像 AI 领先企业这样的部署涉及数千个 GPU,每个 GPU 会消耗大量电力。这就需要存储解决方案不仅提供高性能,还能在功耗方面高效运行。为了更直观地理解,单个 GPU 的功耗可达到 700 瓦,而大规模部署可能涉及多达 10 万个 GPU,所需的电力达到 70 兆瓦。这个功率需求相当于一个大型数据中心的总电力分配。因此,存储解决方案必须设计成在最大化性能的同时,尽可能降低功耗,以便能够与 GPU 一起融入整体解决方案中。

检查点的重要性。

在 AI 训练过程中,检查点对于防止系统故障导致进度丢失至关重要。这些检查点会定期保存 AI 模型的状态(例如,每几分钟保存一次),使得训练过程可以从上次保存的状态继续,而不是从头开始。这一点对于持续时间长、可能持续数周甚至数月的训练尤为重要。高效的检查点管理需要快速的存储解决方案,能够迅速保存和读取大量数据。

例如,一些大型训练平台在训练过程中每分钟进行一次检查点,将数据保存到固态硬盘 (SSD) 上,然后再转移到机械硬盘。这一过程确保了即使发生故障,训练也能以最小的数据损失继续进行。这些检查点的大小可能相当庞大,有些模型每个检查点需要高达 12TB 的存储空间。

硬盘因其可扩展性、成本效益、能效、可持续性以及耐用性,成为 AI 检查点存储的重要组成部分。

未来趋势与创新。

展望未来,AI 存储的需求预计将呈指数级增长。根据 Bloomberg Intelligence、IDC、eMarketer 和 Statista 的数据2,到 2032 年,AI 存储市场预计将达到 920 亿美元。这一增长将受到 AI 模型日益复杂以及 AI 在各个行业广泛应用的推动。为了满足这些需求,存储解决方案将需要变得更加先进,提供更大容量、更快速度以及更高的能效。

目前,业界正在探索多项技术创新,以应对 AI 基础设施的存储需求:

  • 面密度的提升。通过创新磁头和介质技术,硬盘存储密度的持续提升,使得在相同尺寸下实现更大容量。搭载 Seagate Mozaic (魔彩盒) 技术的硬盘是全球颇具效率的存储解决方案,不仅能降低采购和运营成本,还能提高生产力。借助 Mozaic (魔彩盒) 技术提升的存储密度,客户可以在不增加空间占用、能耗或自然资源消耗的情况下存储更多数据。Mozaic 3+ (魔彩盒 3+) 进一步助力客户实现可持续发展目标——这一点对于大型数据中心至关重要——其每 TB 碳排放量降低了 55%3
  • 双传动器硬盘。这类硬盘通过采用两个传动器同时读写数据,可大幅提升性能。这一技术显著提高了数据吞吐量,使 AI 应用生成的大量数据处理更加高效。
  • 基于 NVMe 的硬盘。非易失性存储器快速通道 (NVMe) 技术相比传统的 SATA(串行高级技术附件)或 SAS(串行连接 SCSI)接口,提供了更快的数据访问速度。采用基于 NVMe 的硬盘,数据中心可以实现更高的性能和更低的延迟,对于 AI 负载至关重要。
  • 光纤互连。 随着数据传输速率的提升,传统的铜质互连技术可能成为瓶颈。光纤互连技术提供更高的带宽和更低的延迟,使存储设备与处理单元之间的数据传输更加高效。
  • 高能效存储解决方案。AI 基础设施的能耗需求日益增长,因此存储解决方案必须更加节能。这包括开发功耗更低、同时保持高性能的硬盘以及探索新的冷却技术,来管理大规模部署产生的热量。

不断变化的 AI 存储需求。

AI 基础设施的存储需求正在快速演进,受到数据量的指数级增长和 AI 模型日益复杂的推动。未来,必须开发能够满足这些需求的存储解决方案,使 AI 系统能够持续发展,实现其变革行业和改善生活的潜力。

@2023 数据恢复急救电话tel:134-1864-6626 XML地图
返回顶部