Skip to content

v2.1.1

Choose a tag to compare

@Jiang-Jia-Jun Jiang-Jia-Jun released this 02 Sep 09:40
· 999 commits to develop since this release
c49c43d

文档

  • 新增多机张量并行部署文档
  • 文心系列模型最佳实践文档更新到最新用法
  • 更新CUDA Graph使用说明

新增功能

  • 返回结果新增completion_tokensprompt_tokens,支持返回原始输入与模型原始输出文本
  • completion接口支持echo参数

Bug修复

  • 修复V1 KVCache调度下LogProb无法返回问题
  • 修复chat_template_kwargs参数无法生效问题
  • 修复混合架构部署下的EP并行问题
  • 修复completion接口返回结果中输出Token计数错误问题
  • 修复logprobs返回结果聚合问题

What's Changed

Full Changelog: v2.1.0...v2.1.1