如上。
您好,在我阅读调试了ROLL的代码后,我产生了如下问题:
1.训推差异:我注意到似乎ROLL并没有集成一些修复训推差异的方法如:TIS,MIS(mask掉的)
2.有关agentic pipline 中,无论是异步还是同步,似乎old-log-prob都是由当前的actor-trainer产生,并且结合我们通常的 ppo-epoch=1。这样似乎ratio总是维持着1?一些clip off-policy算法并没有起到作用?
我对ROLL框架的整理梳理可能不是很全,如有部分理解错误希望得到纠正。