多卡训练&强化学习相关问题

想用ddp训练，似乎要改Dataset类，但以弃牌为例，一个xml文件对应很多条数据，这里要怎么改比较好？
另外代码里现在没有提供self-play强化学习训练的代码是吗？这部分添加的话要加哪些逻辑呢？