想用ddp训练,似乎要改Dataset类,但以弃牌为例,一个xml文件对应很多条数据,这里要怎么改比较好? 另外代码里现在没有提供self-play强化学习训练的代码是吗?这部分添加的话要加哪些逻辑呢?