夯实人工智能算力底座:国产PCIe 5.0 SSD,为AI训练而生

来源:英韧科技 #英韧科技# #存储SSD#
7543

Dongting-N3以卓越的性能、低延迟和高可靠性,深度契合AI大模型的存储需求,为AI大数据训练提供了高效的存储解决方案。

AI模型训练和推理过程高度依赖于大量数据的快速访问与处理,尤其是在像DeepSeek这样的数据密集型应用场景中。随着AI技术的迅速发展,对存储设备的要求也在不断提高,尤其是对高容量、高速NVMe SSD的需求显著增加。在这些场景下,基于NVMe协议的固态硬盘(SSD)因其卓越的性能和可靠性成为了确保训练效率的关键因素。而PCIe 5.0 SSD凭借其更高的带宽和更低的延迟特性,进一步满足了现代AI应用对于存储解决方案的苛刻要求。

英韧科技推出的PCIe 5.0 SSD——洞庭-N3(Dongting-N3)系列,凭借其卓越的性能、超低延迟与高可靠性,全面满足AI大模型在训练过程中的严苛需求,为数据中心提供高效、稳定的存储支持。

高吞吐量——保障数据“高速喂养”GPU

AI训练涉及海量数据(如大规模图像、文本或视频数据集)的快速加载和处理。模型训练时,数据需要从存储设备快速传输到GPU/加速卡内存。

洞庭-N3(Dongting-N3)系列采用自研PCIe 5.0主控,搭配长江存储NAND 闪存颗粒,顺序读取速度高达14.5 GB/s,当AI模型需要“进食”数据时,它会像一台超高速传送带,源源不断地将数据“投喂”给GPU。

高IOPS——应对复杂混合负载场景

AI训练中混合负载常见(如随机读取元数据、连续读取大文件),需要高IOPS确保多任务并发时性能稳定。这需要随机读/写IOPS达到百万级,尤其是应对小文件随机访问场景(如特征数据加载)。

洞庭-N3(Dongting-N3)利用硬件加速增强了IO并行处理能力,支持更高的IO并发读写,Dongting-N3出色的多路并行存取数据表现,能够在多台机器或者多个GPU之间高效传输数据,进一步提升AI系统性能,从而提升大规模AI应用的训练速度和精度。

低延迟——加快模型迭代效率

在数据训练过程中,GPU需要频繁访问数据(如小批量数据加载、随机读取),存储延迟直接影响训练迭代速度,在此类场景下,4K随机读写延迟需控制在微秒级。

洞庭-N3(Dongting-N3)的读写延迟低至55/4 μs,超低读写延迟设计可显著增强数据访问的响应速度,更大程度助力AI系统的实时性和可靠性。显著提升了AI模型训练和推理时数据访问速度,以便AI系统能够更快处理实时数据流,增强AI系统整体效率。

高可靠性——守护数据完整性与模型准确性

训练时若数据出错(比如图片损坏),AI会学错知识,输出错误结果。这就需求企业级PCIe SSD通过多重校验和断电保护,确保数据从存储到计算的全程“纯净”,某种程度上数据可靠性也代表着训练成果的可信度。

英韧科技于2018年成功研发并全面启用4K LDPC(低密度奇偶校验Low-Density Parity-Check)纠错技术,并广泛应用于自主研发的消费级和企业级主控芯片中。通常的企业级SSD UBER(不可恢复错误率)需满足≤1E-17,基于业界领先的 LDPC 算法,洞庭-N3(Dongting-N3)具备超强的纠错能力,将UBER提升至1E-18,能够精准识别并修正数据传输与存储过程中出现的各类错误。

AI大规模语言模型的快速发展,对存储设备提出了前所未有的高要求。英韧科技PCIe 5.0 SSD洞庭-N3(Dongting-N3)系列凭借其卓越的性能、低延迟和高可靠性,深度契合了AI大模型的存储需求,为AI大数据训练提供了高效的存储解决方案。

英韧科技将全面支持AI时代数据中心对存储设备的高带宽、低延迟及高密度部署需求, 为高密度算力集群和实时数据处理场景提供更多不同场景的存储解决方案及可靠保障。

责编: 爱集微
来源:英韧科技 #英韧科技# #存储SSD#
THE END
关闭
加载

PDF 加载中...