Replies: 2 comments
-
|
razão pela qual o paralelismo especializado pode não ser suportado durante o treinamento FP16 pode ser devido às limitações do próprio FP16. FP16, ou formato de ponto flutuante de meia precisão, usa menos memória e permite que o modelo treine mais rápido. No entanto, nem todas as equações suportam FP16, o que pode limitar seu uso em certos cenários. |
Beta Was this translation helpful? Give feedback.
-
|
Marking as stale. No activity in 60 days. |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
from
Megatron-LM/megatron/training/arguments.py
Line 508 in db3a3f7
compared to the case when ep=1, the difference when ep>1 is that it introduces additional all-to-all communication operation. I'm a bit confused about why this setup does not support fp16 training.
Beta Was this translation helpful? Give feedback.
All reactions