Merge pull request #1064 from KohakuBlueleaf/fix-grad-sync

Avoid grad sync on each step even when doing accumulation
2026-04-08 22:35:09 +00:00 · 2024-01-23 20:33:55 +09:00
parent bea4362e21 711b40ccda
commit 7a20df5ad5
1 changed files with 5 additions and 4 deletions
--- a/train_network.py
+++ b/train_network.py
@@ -842,10 +842,11 @@ class NetworkTrainer:
                    loss = loss.mean()  # 平均なのでbatch_sizeで割る必要なし

                    accelerator.backward(loss)
-                    self.all_reduce_network(accelerator, network)  # sync DDP grad manually
-                    if accelerator.sync_gradients and args.max_grad_norm != 0.0:
-                        params_to_clip = accelerator.unwrap_model(network).get_trainable_params()
-                        accelerator.clip_grad_norm_(params_to_clip, args.max_grad_norm)
+                    if accelerator.sync_gradients:
+                        self.all_reduce_network(accelerator, network)  # sync DDP grad manually
+                        if args.max_grad_norm != 0.0:
+                            params_to_clip = accelerator.unwrap_model(network).get_trainable_params()
+                            accelerator.clip_grad_norm_(params_to_clip, args.max_grad_norm)

                    optimizer.step()
                    lr_scheduler.step()