Mac猫 - 苹果新闻 - Apple 与 NVIDIA 合作研究更快的 LLM 性能

在今天的一篇博文中，Apple 工程师分享了与 NVIDIA 合作的新细节，以利用大型语言模型实现更快的文本生成性能。

Apple 今年早些时候发布并开源了其 Recurrent Drafter (ReDrafter) 技术。它代表了一种使用法学硕士生成文本的新方法，该方法速度明显更快并且“实现了最先进的性能”。它结合了两种技术：集束搜索（探索多种可能性）和动态树注意力（有效处理选择）。

尽管其研究成果斐然，但 Apple 仍与 NVIDIA 合作，将 ReDrafter 应用到生产中。作为此次合作的一部分，ReDrafter 被集成到 NVIDIA TensorRT-LLM 中，该工具有助于在 NVIDIA GPU 上更快地运行 LLM。

结果如下：

为了实现 ReDrafter 的集成，NVIDIA 添加了新的运算符或公开了现有的运算符，这大大提高了 TensorRT-LLM 适应复杂模型和解码方法的能力。使用 NVIDIA GPU 的 ML 开发人员现在可以轻松受益于 ReDrafter 的加速令牌生成，以使用 TensorRT-LLM 为其生产 LLM 应用程序。

在 NVIDIA GPU 上对数百亿个参数生产模型进行基准测试时，使用 NVIDIA TensorRT-LLM 推理加速框架和 ReDrafter，我们发现每秒生成的贪婪解码令牌速度提高了 2.7 倍。这些基准测试结果表明，这项技术可以显着减少用户可能遇到的延迟，同时使用更少的 GPU 并消耗更少的电量。

苹果机器学习研究人员总结道：“法学硕士越来越多地用于为生产应用程序提供支持，提高推理效率既可以影响计算成本，又可以减少用户的延迟。” “通过将 ReDrafter 新颖的推测性解码方法集成到 NVIDIA TensorRT-LLM 框架中，开发人员现在可以在 NVIDIA GPU 上为其生产 LLM 应用程序更快地生成令牌，从而受益。”

您可以在 Apple 网站和 NVIDIA 网站上的博客文章中了解有关这项工作的更多信息：

Apple ：利用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理
NVIDIA ：NVIDIA TensorRT-LLM 现在支持循环绘图以优化 LLM 推理

免责声明
部分内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场，如有侵权或其它，请联系 macmao.com@gmail.com，我们会第一时间配合删除。(转载请注明来源自:www.macmao.com)

Apple 与 NVIDIA 合作研究更快的 LLM 性能

Apple 发布 iPhone 16e：iPhone 16 家族再添强大新成员

Openai希望在年底之前拥有第一个自定义AI芯片

美国参议员想罚款并监禁那些使用DeepSeek和其他中国AIS的人

使用 Apple Intelligence 的 Memory Maker 重温 2024 年的亮点

语音备忘录 app 为 iPhone 16 Pro 和 iPhone 16 Pro Max 带来分层录音功能

定制 AWS AI 芯片可将效率提升高达 50%

苹果罕见为 AWS 站台，正考虑用新一代 AI 芯片训练 Apple Intelligence