大模型训练
大模型训练过程中涉及两个主要的数据读写场景。其一,把海量的训练样本并发的读取到 GPU 中进行训练, 其二,为保证训练中断时能快速恢复并进行继续训练,在训练过程中会周期性的保存 checkpoint ,并在意外发生时读取 checkpoint 进行恢复。智算存储 NitroFS 可作为大模型存储,为大规模训练提供高性能存储底座。
大模型推理 KVCache
大模型推理中,可将提示词和多轮对话的 token 所计算出的 K/V 向量保存至存储中。以存代算,降低 GPU 重复计算已出现 token 的 K/V 向量的开销,节省算力成本。智算存储 NitroFS 可作为 KVCache 存储,加速推理服务的效率,节省算力成本。
自动驾驶
自动驾驶涉及海量小样本的读取,需要存储有足够低的延迟和极强的元数据性能,并且会需要和对象存储的生态进行打通,满足不同流程的训练需求。智算存储 NitroFS 可作为自动驾驶存储,加速训练场景下,海量小文件的样本读取。