(相关资料图)
IT之家 9 月 9 日消息,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语音模型的推理性能。
英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3(175 B),Llama Falcom(180 B)和 Bloom 模型。
TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。
该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。
在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。
在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。
IT之家在此附上报告原文,感兴趣的用户可以深入阅读。
7月8日,北京市文化和旅游局发布2021年北京市文化和旅游业统计报告,2021年北京接待市民在京游人数1 26亿人次,较上年增长45 9%,较2019年
5月14日,郑州经开区第五大街一地铁口,一个核酸采样舱已布点就位,市民有序进行核酸采样。郑州经开区宣传部供图近日,河南省发布《河南省
稳就业保民生。由人力资源和社会保障部主办,河南省人力资源和社会保障厅承办的河南省2022年百日千万网络招聘专项行动将于5月16日启动,持
政策内容由河南省(郑州市)12320卫生健康热线整理(截至2022年5月15日上午9时)01进入郑州市市域外入(返)郑人员须查验两码一证,即健康
5月15日是全国公安机关5 15打击和防范经济犯罪宣传日,河南省公安厅公布一批经济犯罪案件,作案手法曝光。信阳宋某等人组织领导传销活动案2
X 关闭
X 关闭