fix multi gpu

2026-04-08 22:35:09 +00:00 · 2023-03-10 18:45:53 +08:00
parent c4a596df9e
commit 7544b38635
4 changed files with 5 additions and 5 deletions
--- a/fine_tune.py
+++ b/fine_tune.py
@@ -178,7 +178,7 @@ def train(args):
    print(f"override steps. steps for {args.max_train_epochs} epochs is / 指定エポックまでのステップ数: {args.max_train_steps}")

  # lr schedulerを用意する
-  lr_scheduler = train_util.get_scheduler_fix(args, optimizer)
+  lr_scheduler = train_util.get_scheduler_fix(args, optimizer, accelerator.num_processes)

  # 実験的機能：勾配も含めたfp16学習を行う　モデル全体をfp16にする
  if args.full_fp16:
--- a/library/train_util.py
+++ b/library/train_util.py
@@ -1849,7 +1849,7 @@ def get_optimizer(args, trainable_params):
 # This code can be removed when newer diffusers version (v0.12.1 or greater) is tested and implemented to sd-scripts


-def get_scheduler_fix(args,optimizer: Optimizer):
+def get_scheduler_fix(args,optimizer: Optimizer,num_processes:int):
  """
  Unified API to get any scheduler from its name.
  Args:
@@ -1873,7 +1873,7 @@ def get_scheduler_fix(args,optimizer: Optimizer):
  
  name = args.lr_scheduler
  num_warmup_steps = args.lr_warmup_steps
-  num_training_steps = args.max_train_steps * args.gradient_accumulation_steps
+  num_training_steps = args.max_train_steps * num_processes * args.gradient_accumulation_steps
  num_cycles = args.lr_scheduler_num_cycles
  power = args.lr_scheduler_power

--- a/train_network.py
+++ b/train_network.py
@@ -179,7 +179,7 @@ def train(args):
    print(f"override steps. steps for {args.max_train_epochs} epochs is / 指定エポックまでのステップ数: {args.max_train_steps}")

  # lr schedulerを用意する
-  lr_scheduler = train_util.get_scheduler_fix(args, optimizer)
+  lr_scheduler = train_util.get_scheduler_fix(args, optimizer, accelerator.num_processes)

  # 実験的機能：勾配も含めたfp16学習を行う　モデル全体をfp16にする
  if args.full_fp16:
--- a/train_textual_inversion.py
+++ b/train_textual_inversion.py
@@ -235,7 +235,7 @@ def train(args):
    print(f"override steps. steps for {args.max_train_epochs} epochs is / 指定エポックまでのステップ数: {args.max_train_steps}")

  # lr schedulerを用意する
-  lr_scheduler = train_util.get_scheduler_fix(args, optimizer)
+  lr_scheduler = train_util.get_scheduler_fix(args, optimizer, accelerator.num_processes)

  # acceleratorがなんかよろしくやってくれるらしい
  text_encoder, optimizer, train_dataloader, lr_scheduler = accelerator.prepare(