
在今天的一篇博文中,Apple 工程师分享了与 NVIDIA 合作的新细节,以利用大型语言模型实现更快的文本生成性能。
Apple 今年早些时候发布并开源了其 Recurrent Drafter (ReDrafter) 技术。它代表了一种使用法学硕士生成文本的新方法,该方法速度明显更快并且“实现了最先进的性能”。它结合了两种技术:集束搜索(探索多种可能性)和动态树注意力(有效处理选择)。
尽管其研究成果斐然,但 Apple 仍与 NVIDIA 合作,将 ReDrafter 应用到生产中。作为此次合作的一部分,ReDrafter 被集成到 NVIDIA TensorRT-LLM 中,该工具有助于在 NVIDIA GPU 上更快地运行 LLM。
结果如下:
为了实现 ReDrafter 的集成,NVIDIA 添加了新的运算符或公开了现有的运算符,这大大提高了 TensorRT-LLM 适应复杂模型和解码方法的能力。使用 NVIDIA GPU 的 ML 开发人员现在可以轻松受益于 ReDrafter 的加速令牌生成,以使用 TensorRT-LLM 为其生产 LLM 应用程序。
在 NVIDIA GPU 上对数百亿个参数生产模型进行基准测试时,使用 NVIDIA TensorRT-LLM 推理加速框架和 ReDrafter,我们发现每秒生成的贪婪解码令牌速度提高了 2.7 倍。这些基准测试结果表明,这项技术可以显着减少用户可能遇到的延迟,同时使用更少的 GPU 并消耗更少的电量。
苹果机器学习研究人员总结道:“法学硕士越来越多地用于为生产应用程序提供支持,提高推理效率既可以影响计算成本,又可以减少用户的延迟。” “通过将 ReDrafter 新颖的推测性解码方法集成到 NVIDIA TensorRT-LLM 框架中,开发人员现在可以在 NVIDIA GPU 上为其生产 LLM 应用程序更快地生成令牌,从而受益。”
您可以在 Apple 网站和 NVIDIA 网站上的博客文章中了解有关这项工作的更多信息:
- Apple :利用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理
- NVIDIA :NVIDIA TensorRT-LLM 现在支持循环绘图以优化 LLM 推理
免责声明
部分内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 macmao.com@gmail.com,我们会第一时间配合删除。(转载请注明来源自:www.macmao.com)