近日,英伟达GPU被曝存在严重漏洞,引发业界广泛关注。多伦多大学的研究人员发现了一种名为GPUHammer的攻击方式,能够使GPU上运行的大模型准确率从80%骤降至0.02%。
据称,GPUHammer是首个成功攻击GPU显存的Rowhammer攻击。不同于传统的代码篡改,该攻击直接对显存进行“物理动手”,通过反复“敲击”内存某一行,引发相邻行中的比特翻转,从而悄悄篡改数据。此前,Rowhammer攻击仅限于CPU内存,如今GPU也未能幸免。
研究人员在实验中对AlexNet、VGG、ResNet等经典神经网络架构发起攻击,结果显示,即使是单个比特的翻转也可能导致模型性能彻底崩溃。受攻击后,模型的准确率从80%暴跌至0.1%。这一漏洞对自动驾驶、医疗AI等领域具有严重威胁,可能导致交通标志误识别或医疗误诊。
针对此漏洞,英伟达发布安全通知,建议用户开启系统级纠错码(ECC)保护措施。ECC通过在每段内存数据旁添加“校验码”,自动识别并纠正单个比特错误。然而,ECC亦有其局限性,无法修复双比特翻转,且启用后会降低GPU性能,导致6.5%的内存开销和3%-10%的应用速度下降。
值得注意的是,并非所有GPU型号均受此漏洞影响。例如,RTX3080、A100等芯片采用不同DRAM架构,避开了Rowhammer攻击。未来,若GPU集成片上ECC,将进一步提升防御能力。此外,NVIDIA的MIG和机密计算技术通过内存隔离,有效防止多租户环境中的Rowhammer攻击。
此次事件凸显了AI时代基础设施安全的重要性。尽管英伟达已提出应对措施,但GPUHammer仅是开端,未来模型安全建设仍任重道远。业界需持续关注并加强防护,以确保AI技术的稳定发展。
另据相关报道,英伟达RTX A6000已成功测试GPUHammer攻击,但其他型号也可能受影响。ECC技术的应用虽能缓解攻击,却以性能下降为代价。研究团队指出,不同GPU配置在设计上的差异,导致其对Rowhammer攻击的敏感性不同。未来,集成片上ECC的GPU将更具防御力,而云端环境中的MIG和机密计算技术也将提供有效隔离保护。