fix to call train/eval in schedulefree #1605

2026-04-09 06:45:09 +00:00 · 2024-09-18 21:31:54 +09:00
parent e74502117b
commit 1286e00bb0
4 changed files with 33 additions and 1 deletions
--- a/flux_train.py
+++ b/flux_train.py
@@ -347,8 +347,13 @@ def train(args):

        logger.info(f"using {len(optimizers)} optimizers for blockwise fused optimizers")

+        if train_util.is_schedulefree_optimizer(optimizers[0], args):
+            raise ValueError("Schedule-free optimizer is not supported with blockwise fused optimizers")
+        optimizer_train_fn = lambda: None  # dummy function
+        optimizer_eval_fn = lambda: None  # dummy function
    else:
        _, _, optimizer = train_util.get_optimizer(args, trainable_params=params_to_optimize)
+        optimizer_train_fn, optimizer_eval_fn = train_util.get_optimizer_train_eval_fn(optimizer, args)

    # prepare dataloader
    # strategies are set here because they cannot be referenced in another process. Copy them with the dataset
@@ -760,6 +765,7 @@ def train(args):
                progress_bar.update(1)
                global_step += 1

+                optimizer_eval_fn()
                flux_train_utils.sample_images(
                    accelerator, args, None, global_step, flux, ae, [clip_l, t5xxl], sample_prompts_te_outputs
                )
@@ -778,6 +784,7 @@ def train(args):
                            global_step,
                            accelerator.unwrap_model(flux),
                        )
+                optimizer_train_fn()

            current_loss = loss.detach().item()  # 平均なのでbatch sizeは関係ないはず
            if len(accelerator.trackers) > 0:
@@ -800,6 +807,7 @@ def train(args):

        accelerator.wait_for_everyone()

+        optimizer_eval_fn()
        if args.save_every_n_epochs is not None:
            if accelerator.is_main_process:
                flux_train_utils.save_flux_model_on_epoch_end_or_stepwise(
@@ -816,12 +824,14 @@ def train(args):
        flux_train_utils.sample_images(
            accelerator, args, epoch + 1, global_step, flux, ae, [clip_l, t5xxl], sample_prompts_te_outputs
        )
+        optimizer_train_fn()

    is_main_process = accelerator.is_main_process
    # if is_main_process:
    flux = accelerator.unwrap_model(flux)

    accelerator.end_training()
+    optimizer_eval_fn()

    if args.save_state or args.save_state_on_train_end:
        train_util.save_state_on_train_end(args, accelerator)