M4芯片ANE首次实现神经网络训练反向传播突破引发关注

M4芯片ANE突破性实现神经网络训练

开发者Manjeet Singh与Claude Opus合作，通过逆向工程Apple未公开的私有API，首次在搭载M4芯片的Apple Neural Engine（ANE）上实现了支持反向传播的神经网络训练。此前，ANE仅被官方定义为推理专用加速器，训练能力从未开放，用户只能通过CoreML框架调用其推理功能。

绕过CoreML构建完整软件栈

该项目成功映射了从 _ANEClient、_ANECompiler 等40余个私有类到IOKit内核驱动的完整软件栈，揭示了可在内存中直接编译模型的 _ANEInMemoryModelDescriptor 接口——这是实现训练的关键所在，因每次权重更新均需重新编译。当前版本已可运行单个Transformer层（维度768，序列长度512）的训练任务。

性能表现与架构洞察

在M4芯片上，每训练步耗时9.3ms，ANE利用率11.2%（实测1.78 TFLOPS，理论峰值15.8 TFLOPS）。前向与反向传播中的输入梯度由ANE计算，而权重梯度及Adam优化器则交由CPU处理。研究还发现，ANE的核心计算原语为卷积而非传统矩阵乘法，采用1x1卷积表达矩阵乘法可带来约3倍吞吐提升；若绕过CoreML直接调用，则额外获得2-4倍性能增益。这一发现质疑了Apple官方宣称的「38 TOPS」算力指标，认为存在误导性宣传。

当前局限与未来方向

项目目前处于早期阶段：仅支持单层训练，使用合成数据，且存在约119次编译后的资源泄漏问题，需重启进程规避。多层训练与真实数据支持仍在开发中。项目以MIT协议开源，发布5日内获得约2800颗星，显示出社区高度关注。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

M4芯片ANE首次实现神经网络训练 反向传播突破引发关注

M4芯片ANE突破性实现神经网络训练

绕过CoreML构建完整软件栈

性能表现与架构洞察

当前局限与未来方向

相关阅读

M4芯片ANE首次实现神经网络训练反向传播突破引发关注