Releases: Tencent/AngelSlim
Releases · Tencent/AngelSlim
v0.2.0
AngelSlim V0.2.0版本发布
功能升级
量化
- 发布LeptoQuant量化算法,动态搜索最佳FP8静态量化scale #45
- 支持int4 GPTAQ量化算法及Benchmark #49
- 支持DeepSeek/Qwen模型FP8-Block-Wise量化的工具化脚本 #52 #95
- 支持Qwen2.5 code模型静态及动态FP8量化流程 #55 #56
- 支持Seed-OSS模型FP8静态及动态量化 #53
- 支持Qwen3-Coder-480B-A35B静态及动态FP8量化流程 #66 #68
- 支持Qwen3 NVFP4量化及Benchmark #72 #76 #77
- 发布Tequila三值量化新方法 #79 #80
- 支持DeepSeek int4-awq量化算法 #87 #96
- 支持GLM-4.6模型FP8静态量化 #89 #100
- 支持Qwen3-VL模型FP8静态量化及Benchmark #112 #124
- 新增Qwen3-Omni的FP8静态量化 #121
投机采样
- 支持Eagle3的torch推理Benchmark流程 #54
- 更新Eagle3 head_dim自适应,兼容Transformer 4.56以上版本 #70 #71
- 发布SpecExit思考早停新算法 #83 #91
- 发布投机采样训练框架,支持vLLM数据采样,Deepspeed+HF在线Eagle3训练 #113
- 支持Hunyuan模型Eagle3训练 #126
- 支持投机采样vLLM测试Benchmark #125 #127
Diffusion压缩
- 支持Diffusion FLUX模型fp8静态量化 #37
- 支持Cache + FP8量化联合策略 #63
- 重构Diffusion动态量化,支持per-tensor、per-token和per-block量化及导出流程 #90 #99
- 支持Diffusion模型weight only fp8量化 ,新增DiT量化脚本及文档 #104 #117
Bug fix及其他
v0.1.0
AngelSlim V0.1版本发布
功能升级
量化
- 支持了
Hunyuan 0.5B/1.8B/4B/7B/A13B模型的INT8、FP8、INT4等量化。 - 支持了
Qwen2.5/Qwen3/DeepSeek-R1-Distill-Qwen等模型INT8、FP8、INT4等量化。 - 支持了
Qwen2.5VL 3B/7B/32B/72B的FP8、INT4量化。 - 支持了
DeepSeek-R1/V3和Kimi-K2模型的FP8-Static、W4A8-FP8量化 - 支持量化敏感度分析工具,可对权重和激活同时进行量化敏感度分析。
投机采样
- 开源
Qwen3系列模型的Eagle3权重。 - 开源
Hunyuan 1.8B/4B/7B系列模型的Eagle3权重。