Skip to content

训练时显存占用问题 #66

@Qiu-dot

Description

@Qiu-dot

Albert能否在训练时减少显存占用?
比如,假如两个网络同样有6个注意力模块,第一个网络没有参数共享,第二个网络在所有模块间都进行了参数贡献,那么在训练时两个模型显存占用会不会有特别明显差别?
换句话讲,Albert的优点只是减小了模型的size吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions