Albert能否在训练时减少显存占用? 比如,假如两个网络同样有6个注意力模块,第一个网络没有参数共享,第二个网络在所有模块间都进行了参数贡献,那么在训练时两个模型显存占用会不会有特别明显差别? 换句话讲,Albert的优点只是减小了模型的size吗?