Skip to content

Releases: Tencent/AngelSlim

v0.2.0

05 Nov 06:55
eafed3e

Choose a tag to compare

AngelSlim V0.2.0版本发布

功能升级

量化

  • 发布LeptoQuant量化算法,动态搜索最佳FP8静态量化scale #45
  • 支持int4 GPTAQ量化算法及Benchmark #49
  • 支持DeepSeek/Qwen模型FP8-Block-Wise量化的工具化脚本 #52 #95
  • 支持Qwen2.5 code模型静态及动态FP8量化流程 #55 #56
  • 支持Seed-OSS模型FP8静态及动态量化 #53
  • 支持Qwen3-Coder-480B-A35B静态及动态FP8量化流程 #66 #68
  • 支持Qwen3 NVFP4量化及Benchmark #72 #76 #77
  • 发布Tequila三值量化新方法 #79 #80
  • 支持DeepSeek int4-awq量化算法 #87 #96
  • 支持GLM-4.6模型FP8静态量化 #89 #100
  • 支持Qwen3-VL模型FP8静态量化及Benchmark #112 #124
  • 新增Qwen3-Omni的FP8静态量化 #121

投机采样

  • 支持Eagle3的torch推理Benchmark流程 #54
  • 更新Eagle3 head_dim自适应,兼容Transformer 4.56以上版本 #70 #71
  • 发布SpecExit思考早停新算法 #83 #91
  • 发布投机采样训练框架,支持vLLM数据采样,Deepspeed+HF在线Eagle3训练 #113
  • 支持Hunyuan模型Eagle3训练 #126
  • 支持投机采样vLLM测试Benchmark #125 #127

Diffusion压缩

  • 支持Diffusion FLUX模型fp8静态量化 #37
  • 支持Cache + FP8量化联合策略 #63
  • 重构Diffusion动态量化,支持per-tensor、per-token和per-block量化及导出流程 #90 #99
  • 支持Diffusion模型weight only fp8量化 ,新增DiT量化脚本及文档 #104 #117

Bug fix及其他

  • 修复DeepSeek per-tensor量化、导出模型、校准集等问题 #50 #64
  • 修复angelslim保存config的数据路径,对敏感信息模糊处理 #78
  • 分离各场景环境依赖,通过lazy import组织requirement #101 #120 #129 #131
  • 优化deploy脚本传参形式,优化tokenizer目录结构 #115
  • 支持attn_implementation可选接口,支持flash-attn来减低量化过程显存占用 #130

v0.1.0

06 Aug 05:21
263f3a3

Choose a tag to compare

AngelSlim V0.1版本发布

功能升级

量化

  • 支持了Hunyuan 0.5B/1.8B/4B/7B/A13B模型的INT8、FP8、INT4等量化。
  • 支持了Qwen2.5/Qwen3/DeepSeek-R1-Distill-Qwen等模型INT8、FP8、INT4等量化。
  • 支持了Qwen2.5VL 3B/7B/32B/72B的FP8、INT4量化。
  • 支持了DeepSeek-R1/V3Kimi-K2模型的FP8-StaticW4A8-FP8量化
  • 支持量化敏感度分析工具,可对权重和激活同时进行量化敏感度分析。

投机采样

  • 开源Qwen3系列模型的Eagle3权重。
  • 开源Hunyuan 1.8B/4B/7B系列模型的Eagle3权重。