Merge pull request #189 from shirayu/improve_loss_track

Show the moving average loss
2026-04-16 17:02:45 +00:00 · 2023-02-16 22:00:26 +09:00
parent 82713e9aa6 8aed5125de
commit 914d1505df
2 changed files with 18 additions and 6 deletions
--- a/train_db.py
+++ b/train_db.py
@@ -206,6 +206,8 @@ def train(args):
  if accelerator.is_main_process:
    accelerator.init_trackers("dreambooth")

+  loss_list = []
+  loss_total = 0.0
  for epoch in range(num_train_epochs):
    print(f"epoch {epoch+1}/{num_train_epochs}")
    train_dataset.set_current_epoch(epoch + 1)
@@ -216,7 +218,6 @@ def train(args):
    if args.gradient_checkpointing or global_step < args.stop_text_encoder_training:
      text_encoder.train()

-    loss_total = 0
    for step, batch in enumerate(train_dataloader):
      # 指定したステップ数でText Encoderの学習を止める
      if global_step == args.stop_text_encoder_training:
@@ -294,8 +295,13 @@ def train(args):
        logs = {"loss": current_loss, "lr": lr_scheduler.get_last_lr()[0]}
        accelerator.log(logs, step=global_step)

+      if epoch == 0:
+        loss_list.append(current_loss)
+      else:
+        loss_total -= loss_list[step]
+        loss_list[step] = current_loss
      loss_total += current_loss
-      avr_loss = loss_total / (step+1)
+      avr_loss = loss_total / len(loss_list)
      logs = {"loss": avr_loss}  # , "lr": lr_scheduler.get_last_lr()[0]}
      progress_bar.set_postfix(**logs)

@@ -303,7 +309,7 @@ def train(args):
        break

    if args.logging_dir is not None:
-      logs = {"epoch_loss": loss_total / len(train_dataloader)}
+      logs = {"epoch_loss": loss_total / len(loss_list)}
      accelerator.log(logs, step=epoch+1)

    accelerator.wait_for_everyone()
--- a/train_network.py
+++ b/train_network.py
@@ -392,6 +392,8 @@ def train(args):
  if accelerator.is_main_process:
    accelerator.init_trackers("network_train")

+  loss_list = []
+  loss_total = 0.0
  for epoch in range(num_train_epochs):
    print(f"epoch {epoch+1}/{num_train_epochs}")
    train_dataset.set_current_epoch(epoch + 1)
@@ -400,7 +402,6 @@ def train(args):

    network.on_epoch_start(text_encoder, unet)

-    loss_total = 0
    for step, batch in enumerate(train_dataloader):
      with accelerator.accumulate(network):
        with torch.no_grad():
@@ -464,8 +465,13 @@ def train(args):
        global_step += 1

      current_loss = loss.detach().item()
+      if epoch == 0:
+        loss_list.append(current_loss)
+      else:
+        loss_total -= loss_list[step]
+        loss_list[step] = current_loss
      loss_total += current_loss
-      avr_loss = loss_total / (step+1)
+      avr_loss = loss_total / len(loss_list)
      logs = {"loss": avr_loss}  # , "lr": lr_scheduler.get_last_lr()[0]}
      progress_bar.set_postfix(**logs)

@@ -477,7 +483,7 @@ def train(args):
        break

    if args.logging_dir is not None:
-      logs = {"loss/epoch": loss_total / len(train_dataloader)}
+      logs = {"loss/epoch": loss_total / len(loss_list)}
      accelerator.log(logs, step=epoch+1)

    accelerator.wait_for_everyone()