[研究llama-cpp文档和当前仓库利用hf/transformer后端的拼音约束解码实现](https://github.com/copilot/share/c87c423c-49e0-8843-8011-2c0bc0fd2898)后,发现llama-cpp同样支持自定义采样器、实现自定义约束解码的难度较低,同时也有较高可能性实现自定义束搜索。 llamacpp相比hf/transformer后端更轻量、更“本地化”且不依赖外部python环境,因此实现llamacpp后端的拼音约束解码更有助于“开箱即用”的使用体验。