训练时显存占用问题

Albert能否在训练时减少显存占用？
比如，假如两个网络同样有6个注意力模块，第一个网络没有参数共享，第二个网络在所有模块间都进行了参数贡献，那么在训练时两个模型显存占用会不会有特别明显差别？
换句话讲，Albert的优点只是减小了模型的size吗？