

尽管算力投入备受瞩目,但大规模模型训练的实际推进正遭遇来自底层数据承载能力的掣肘。从原始数据摄入到检查点保存、嵌入向量归档及日志留存,海量非结构化信息的累积速度远超预期。在此背景下,机械硬盘凭借其极低的每TB成本与功耗优势,重新成为构建数据湖的核心载体。
市场调研显示,全球对近线企业级硬盘的需求年增长率预计达40%-50%,而产能增幅仅为30%-35%。这一缺口导致长期协议锁定成为主流,制造商已提前售出未来数年产能。西部数据披露其2026年全部HDD产能已被多年合约覆盖,延伸至2028-2029年;希捷虽拥有约550 EB的年制造规模,仍难以满足超大规模客户的需求。
在实际部署中,系统采用分层策略:高速闪存处理训练暂存、实时推理等高延迟敏感任务,而机械硬盘则承担数据湖、模型检查点、历史日志和备份等温冷数据存储。尽管单盘读写速度不及固态,但单位容量的能耗与成本优势显著,尤其在批量部署场景下更具备经济合理性。
两家厂商在提升面密度方面采取不同路线。希捷主推热辅助磁记录(HAMR),理论上可突破传统磁记录极限,实现更高容量。西部数据则聚焦于能量辅助磁记录(MAMR)与改进型扩展部分磁记录(ePMR),并强化机械结构与固件优化以提升可靠性和良率。目前来看,希捷在高端型号上展现更强潜力,而西部数据在量产稳定性与客户订单储备方面更具优势。
当前近线硬盘每TB价格低于15美元,行业目标是在未来2-3年内提升至25-30美元区间。即便不出现剧烈涨价,仅靠容量增长与合同锁定,制造商即可显著改善收入结构。尤其在需求持续高于供给的环境下,供应商正逐步掌握定价主动权,营业杠杆效应将逐渐显现。
首先,若未来模型训练趋于集中且数据清洗更加严格,新增数据量可能下降。其次,一旦NAND产能过剩引发SSD价格暴跌,部分冷数据层或将尝试转向闪存。第三,监管机构对能效的要求日益提高,可能促使预算向数据最小化倾斜而非扩容。第四,新技术良率波动或客户采购节奏调整,均可能导致业绩短期波动。
关注多年协议中的合同单价变化,而非现货市场报价;观察EB级出货量与机柜利用率水平;监测新型记录技术(如HAMR、ePMR更新)的现场表现与良率进展;评估驱动器重建时间与故障曲线对运维的影响;同时留意每PB功耗预算与合规压力下的效率要求。
误以为仅需堆叠高性能硬件即可推进模型迭代,实则存储与网络瓶颈常成为吞吐上限。过度配置闪存用于冷数据将大幅推高总拥有成本。更大容量硬盘带来更长的奇偶校验重建周期,必须提前规划故障域。此外,在供应紧张时期,有保障的产能比临时折扣更为关键。
磁带适用于极长期归档且调用频率极低的场景,但在需要定期访问或并行扫描的数据环境中,其恢复延迟与操作复杂性使其难以完全替代机械硬盘。多数领先机构采用混合模式:磁带用于深度归档,硬盘用于活跃数据湖。
尽管去中心化网络在小众场景中具有一定吸引力,但超大规模客户仍优先选择可控性强、故障域清晰、工具链集成度高的集中式方案。只有当传统渠道严重受限时,此类替代路径才可能获得更多关注。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.