[QUESTION] Why is expert parallelism not supported during fp16 training? #1188

yutian-mt · 2024-05-07T08:39:21Z

yutian-mt
May 7, 2024

assert not args.model_parallel.fp16, \
            "Expert parallelism is not supported with fp16 training."

from

Megatron-LM/megatron/training/arguments.py

Line 508 in db3a3f7

"Expert parallelism is not supported with fp16 training."

compared to the case when ep=1, the difference when ep>1 is that it introduces additional all-to-all communication operation. I'm a bit confused about why this setup does not support fp16 training.

felipeliliti · 2024-05-07T12:09:09Z

felipeliliti
May 7, 2024

razão pela qual o paralelismo especializado pode não ser suportado durante o treinamento FP16 pode ser devido às limitações do próprio FP16. FP16, ou formato de ponto flutuante de meia precisão, usa menos memória e permite que o modelo treine mais rápido. No entanto, nem todas as equações suportam FP16, o que pode limitar seu uso em certos cenários.
No contexto dos modelos MoE, os requisitos de memória podem ser bastante altos. Por exemplo, a saída da rede conjunta no transdutor é um tensor de 4 dimensões que ocupa quantidades significativas de memória. Usar FP16 poderia potencialmente aliviar alguns dos problemas de uso de memória, mas pode não ser suficiente ou compatível com todos os aspectos do processo de treinamento.
Também vale a pena notar que a documentação do Megatron-LM da NVIDIA menciona que ao usar MoE com paralelismo especializado e paralelismo tensorial, o paralelismo de sequência deve ser usado. Isso pode ser outro fator a considerar ao tentar entender as limitações do uso de paralelismo especializado durante o treinamento FP16.

0 replies

2024-07-06T18:20:29Z

github-actions[bot]
bot Jul 6, 2024

Marking as stale. No activity in 60 days.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[QUESTION] Why is expert parallelism not supported during fp16 training? #1188

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

[QUESTION] Why is expert parallelism not supported during fp16 training? #1188

Uh oh!

yutian-mt May 7, 2024

Replies: 2 comments

Uh oh!

felipeliliti May 7, 2024

Uh oh!

github-actions[bot] bot Jul 6, 2024

yutian-mt
May 7, 2024

felipeliliti
May 7, 2024

github-actions[bot]
bot Jul 6, 2024