Merge branch 'dnarayanan/assertion_check' into 'main'

jaredcasper · jaredcasper · commit 1bb6337638d0 · 2024-08-09T15:08:34.000-07:00
Some bugfixes in megatron/training.py when save argument is not provided

See merge request ADLR/megatron-lm!1907
diff --git a/megatron/training/arguments.py b/megatron/training/arguments.py
@@ -521,7 +521,8 @@ def validate_args(args, defaults={}):
     if args.decoupled_lr is not None or args.decoupled_min_lr is not None:
         assert not args.use_legacy_models, \
             '--decoupled-lr and --decoupled-min-lr is not supported in legacy models.'
-        assert not args.use_dist_ckpt, "Distributed checkpointing does not work with decoupled LR yet."
+        if args.load is not None or args.save is not None:
+            assert not args.use_dist_ckpt, "Distributed checkpointing does not work with decoupled LR yet."
 
     # Legacy RoPE arguments
     if args.use_rotary_position_embeddings:
diff --git a/megatron/training/training.py b/megatron/training/training.py
@@ -1223,10 +1223,11 @@ def get_e2e_base_metrics():
         if args.exit_signal_handler:
             signal_handler = get_signal_handler()
             if any(signal_handler.signals_received()):
-                save_checkpoint_and_time(iteration, model, optimizer,
-                                         opt_param_scheduler,
-                                         num_floating_point_operations_so_far,
-                                         checkpointing_context, train_data_iterator=train_data_iterator)
+                if args.save:
+                    save_checkpoint_and_time(iteration, model, optimizer,
+                                             opt_param_scheduler,
+                                             num_floating_point_operations_so_far,
+                                             checkpointing_context, train_data_iterator=train_data_iterator)
                 print_datetime('exiting program after receiving SIGTERM.')
                 exit = True
                 break
@@ -1259,7 +1260,7 @@ def get_e2e_base_metrics():
                 done_cuda, op=torch.distributed.ReduceOp.MAX)
             done = done_cuda.item()
             if done:
-                if not saved_checkpoint:
+                if args.save and not saved_checkpoint:
                     save_checkpoint_and_time(iteration, model, optimizer,
                                              opt_param_scheduler,
                                              num_floating_point_operations_so_far,