refactor get_scheduler etc.

2026-04-09 06:45:09 +00:00 · 2023-02-20 22:47:43 +09:00
parent 12d30afb39
commit 663aad2b0d
5 changed files with 119 additions and 100 deletions
--- a/train_db.py
+++ b/train_db.py
@@ -120,7 +120,7 @@ def train(args):
  else:
    trainable_params = unet.parameters()

-  optimizer_name, optimizer = train_util.get_optimizer(args, trainable_params)
+  _, optimizer = train_util.get_optimizer(args, trainable_params)

  # dataloaderを準備する
  # DataLoaderのプロセス数：0はメインプロセスになる
@@ -136,9 +136,11 @@ def train(args):
  if args.stop_text_encoder_training is None:
    args.stop_text_encoder_training = args.max_train_steps + 1                # do not stop until end

-  # lr schedulerを用意する
-  lr_scheduler = diffusers.optimization.get_scheduler(
-      args.lr_scheduler, optimizer, num_warmup_steps=args.lr_warmup_steps, num_training_steps=args.max_train_steps)
+  # lr schedulerを用意する TODO gradient_accumulation_stepsの扱いが何かおかしいかもしれない。後で確認する
+  lr_scheduler = train_util.get_scheduler_fix(
+      args.lr_scheduler, optimizer, num_warmup_steps=args.lr_warmup_steps,
+      num_training_steps=args.max_train_steps,
+      num_cycles=args.lr_scheduler_num_cycles, power=args.lr_scheduler_power)

  # 実験的機能：勾配も含めたfp16学習を行う　モデル全体をfp16にする
  if args.full_fp16:
@@ -280,6 +282,8 @@ def train(args):
      current_loss = loss.detach().item()
      if args.logging_dir is not None:
        logs = {"loss": current_loss, "lr": lr_scheduler.get_last_lr()[0]}
+        if args.optimizer_type == "DAdaptation".lower(): # tracking d*lr value
+          logs["lr/d*lr"] = lr_scheduler.optimizers[0].param_groups[0]['d']*lr_scheduler.optimizers[0].param_groups[0]['lr']
        accelerator.log(logs, step=global_step)

      if epoch == 0: