fix duplicated sample gen for every epoch ref #907

2026-04-08 06:28:48 +00:00 · 2023-12-07 22:13:38 +09:00
parent db84530074
commit 912dca8f65
6 changed files with 44 additions and 53 deletions
--- a/train_controlnet.py
+++ b/train_controlnet.py
@@ -11,10 +11,13 @@ import toml

 from tqdm import tqdm
 import torch
+
 try:
    import intel_extension_for_pytorch as ipex
+
    if torch.xpu.is_available():
        from library.ipex import ipex_init
+
        ipex_init()
 except Exception:
    pass
@@ -335,7 +338,9 @@ def train(args):
        init_kwargs = {}
        if args.log_tracker_config is not None:
            init_kwargs = toml.load(args.log_tracker_config)
-        accelerator.init_trackers("controlnet_train" if args.log_tracker_name is None else args.log_tracker_name, init_kwargs=init_kwargs)
+        accelerator.init_trackers(
+            "controlnet_train" if args.log_tracker_name is None else args.log_tracker_name, init_kwargs=init_kwargs
+        )

    loss_recorder = train_util.LossRecorder()
    del train_dataset_group
@@ -371,22 +376,13 @@ def train(args):
            accelerator.print(f"removing old checkpoint: {old_ckpt_file}")
            os.remove(old_ckpt_file)

+    # For --sample_at_first
+    train_util.sample_images(
+        accelerator, args, 0, global_step, accelerator.device, vae, tokenizer, text_encoder, unet, controlnet=controlnet
+    )
+
    # training loop
    for epoch in range(num_train_epochs):
-        # For --sample_at_first
-        train_util.sample_images(
-            accelerator,
-            args,
-            epoch,
-            global_step,
-            accelerator.device,
-            vae,
-            tokenizer,
-            text_encoder,
-            unet,
-            controlnet=controlnet,
-        )
-
        if is_main_process:
            accelerator.print(f"\nepoch {epoch+1}/{num_train_epochs}")
        current_epoch.value = epoch + 1