• 实时要闻
  • 当前位置:首页 > 实时要闻
  • 走近智算 | 大模型训练的关键角色——存储,为什么如此重要?——数据存算生态大会

    2025-07-25作者:数据存算生态大会

    在AI大模型从训练至推理的每一个关键环节,存储都扮演着不可或缺的角色。


    1.jpg


    数据归集与预处理阶段,面对来源广泛、形式多样的数据,存储系统需要具备全局统一命名空间与原生无损多协议互通的特性,确保数据的无缝整合与高效流通。


    同时,极致的稳定性和可靠性更是存储系统的基石,为数据安全筑起坚不可摧的防线。进入模型训练阶段,为了确保数据集能够被快速读取,减少等待时间,存储需要具备数千节点的横向扩展能力。


    这样的能力可以支撑亿级文件列表的获取,满足大规模数据训练的需求,为模型的高效训练提供强大的保障。


    当模型发布并投入推理阶段后,存储系统的高并发、高吞吐、高效率等特性更是显得尤为重要。它能够确保在推理过程中,数据能够迅速、准确地被处理,从而满足AI应用对于实时性与准确性的严苛要求。


    2.jpg


    接下来,我们具体从两个方面来探讨AI大模型对存储的需求。


    首先大模型需要更大的存储容量,从文本到多模态,数据增长巨大,数据规模往往都达到了PB级,随着模型规模和原始数据的增加,数据规模也会增长,为了应对海量的数据存储问题,需要大模型存储具备良好的扩展性。


    大模型存储采用的分布式架构,通过横向扩展增加存储容量和性能,一方面可以满足存储容量的持续增加,另一方面还能满足模型训练对高带宽、高IO存储的需求,从而充分发挥计算资源的算力,保障计算资源不浪费。


    3.jpg


    其次,大模型需要更优的存储性能,大模型训练过程中需要处理海量数据,包括数据集的加载、模型参数的保存与恢复等,这些操作都依赖存储系统的性能。数据集加载阶段,需要将大量数据从存储系统加载到内存中。


    如果存储系统性能不足,数据加载速度缓慢,会直接影响训练的启动效率。模型训练过程中,模型参数需要定期保存,以便在训练中断时能够快速恢复。这要求存储系统具备高吞吐量和低延迟,以确保参数的快速写入和读取。对此,基础设施层也从“本地盘”向”高性能+大容量”的AI存储演进。



    280亿收购秦淮数据 东阳光意欲“算电协同”? 英伟达一个卖GPU的,开始对数据中心建设指手画脚了 算电协同、液冷、调度…两部门《关于推进“人工智能+”能源高质量发展的实施意见》关于算力都说了什么? 投资12亿元,德令哈海德智算中心完成主体结构封顶 投资84.66亿元,新星市国信清控智算中心30000P建设项目招标公告 聚焦AIDC智算储能丨双登股份全球研发总部(新型储能零碳产业园)开工 新疆:新星市1智算中心项目(一至四标段)设计施工总承包启动招标;木垒县2智算中心项目计划9月底投运 AI 存储 “新王者” 登场!华为AISSD撬动千亿增量! 智联未来 算启新篇 | 浩云长盛上海嘉定大型智算集群正式开园! “绿色瓦特”VS“智能比特”|智算中心如何实现“极致能效”? 最新!智能算力中心运维管理解决方案!2025 智算中心规模化交付的六大核心挑战 智算中心要为绿电直连买单吗? 数据存储阵列: “IP → 芯片 → 系统”的硬核之路 内蒙古:并行科技与芯智能两大算力项目规划设计方案通过审议 128亿元,不少于40000P!弘信电子拟投建燧弘庆阳绿色智能数字基础设施项目 3000机柜!武汉泰康科技大健康总部项目1.1期数据中心建设新进展 总投资达51亿元!中国联通粤港澳与长三角两大算力项目建设新进展 超两万台机柜!河北怀来2个智算中心项目招标结果公布 除了6亿算力券 AI算力降成本方法还有哪些? AI 服务器需求暴涨!PCB 行业迎来超级周期,头部企业订单排到 2026 年! 上半年涌现超40个亿元智算中心大单|智算趋势最新解读——数据存算生态大会 上海:发放6亿元算力券 降低智能算力使用成本——数据存算生态大会 总投资约150亿元!华锐信息拟在庆阳市建设智算中心项目——数据存算生态大会 总投资超45亿元!九川科技(宁夏)有限公司灵武智慧算力科创谷项目顺利封顶——数据存算生态大会 中国拟建全国算力交易网络应对数据中心过剩?——数据存算生态大会 算力总和达3.5万P!新疆三大智算项目招标/中标公示——数据存算生态大会 走近智算 | 大模型训练的关键角色——存储,为什么如此重要?——数据存算生态大会 智算存储有什么应用场景?——数据存算生态大会 23亿元,5000P!新疆双河中树云算力中心项目一期进入地上主体结构施工阶段——数据存算生态大会 超45亿元,3000P!九川科技(宁夏)灵武智慧算力科创谷项目封顶——数据存算生态大会 关注|中国云厂商到底买了多少H20?中国AI芯片市场供需(H20恢复后)、买家格局及资本支出分析——数据存算生态大会 西南商业卫星“超级大脑”——环天云智算中心进入最后调试阶段——数据存算生态大会 2025年度国家绿色数据中心推荐工作启动,六大赛道等你入场——数据存算生态大会 深度|消耗能源的数据中心正悄然整合算力产业生态?——数据存算生态大会 264.79亿元!8省20个智算中心/算力项目已备案!——数据存算生态大会 电子档案管理有新要求——国家档案局22号令公布《电子档案管理办法》 中国计算机行业协会《分布式存储系统技术成熟度评价规范》标准第二次编制工作会在京召开 《分布式存储系统技术成熟度评价规范》标准编制工作会在京召开 加快立法,保障公民的数据信息安全 深圳2024AI算力产业大会圆满结束,共绘智算未来新篇章 走进数据归档行业”活动在北京成功举办 航天信息与联通大数据达成战略合作 上海小牛科技融合大数据发展快速实现全面管理 大数据面临哪些安全问题与挑战? 我国数据存储行业首个生态图谱权威发布 2024数据存算生态大会在国家会议中心圆满落幕 生成式人工智能催生算力需求 数据存储产业迎来新机遇——数据安全 数据存算大会AI大模型算力论坛在北京成功举办 全国人大代表杨帆——积极参与国家大数据中心区域试点

    @数据存算生态大会 版权所有

    粤ICP备2024291375号