Skip to content

有关训推差异和old-log-pro #242

@gzoftju

Description

@gzoftju

如上。
您好,在我阅读调试了ROLL的代码后,我产生了如下问题:

1.训推差异:我注意到似乎ROLL并没有集成一些修复训推差异的方法如:TIS,MIS(mask掉的)
2.有关agentic pipline 中,无论是异步还是同步,似乎old-log-prob都是由当前的actor-trainer产生,并且结合我们通常的 ppo-epoch=1。这样似乎ratio总是维持着1?一些clip off-policy算法并没有起到作用?

我对ROLL框架的整理梳理可能不是很全,如有部分理解错误希望得到纠正。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions