有关训推差异和old-log-pro

如上。
您好，在我阅读调试了ROLL的代码后，我产生了如下问题：

1.训推差异：我注意到似乎ROLL并没有集成一些修复训推差异的方法如：TIS，MIS（mask掉的）
2.有关agentic pipline 中，无论是异步还是同步，似乎old-log-prob都是由当前的actor-trainer产生，并且结合我们通常的 ppo-epoch=1。这样似乎ratio总是维持着1？一些clip off-policy算法并没有起到作用？

我对ROLL框架的整理梳理可能不是很全，如有部分理解错误希望得到纠正。