M4芯片ANE首次实现神经网络训练 反向传播突破引发关注
M4芯片ANE突破性实现神经网络训练
开发者Manjeet Singh与Claude Opus合作,通过逆向工程Apple未公开的私有API,首次在搭载M4芯片的Apple Neural Engine(ANE)上实现了支持反向传播的神经网络训练。此前,ANE仅被官方定义为推理专用加速器,训练能力从未开放,用户只能通过CoreML框架调用其推理功能。
绕过CoreML构建完整软件栈
该项目成功映射了从 _ANEClient、_ANECompiler 等40余个私有类到IOKit内核驱动的完整软件栈,揭示了可在内存中直接编译模型的 _ANEInMemoryModelDescriptor 接口——这是实现训练的关键所在,因每次权重更新均需重新编译。当前版本已可运行单个Transformer层(维度768,序列长度512)的训练任务。
性能表现与架构洞察
在M4芯片上,每训练步耗时9.3ms,ANE利用率11.2%(实测1.78 TFLOPS,理论峰值15.8 TFLOPS)。前向与反向传播中的输入梯度由ANE计算,而权重梯度及Adam优化器则交由CPU处理。研究还发现,ANE的核心计算原语为卷积而非传统矩阵乘法,采用1x1卷积表达矩阵乘法可带来约3倍吞吐提升;若绕过CoreML直接调用,则额外获得2-4倍性能增益。这一发现质疑了Apple官方宣称的「38 TOPS」算力指标,认为存在误导性宣传。
当前局限与未来方向
项目目前处于早期阶段:仅支持单层训练,使用合成数据,且存在约119次编译后的资源泄漏问题,需重启进程规避。多层训练与真实数据支持仍在开发中。项目以MIT协议开源,发布5日内获得约2800颗星,显示出社区高度关注。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!