Merge pull request #1168 from gesen2egee/save_state_on_train_end

Save state on train end
2026-04-09 06:45:09 +00:00 · 2024-03-20 18:02:13 +09:00
parent 3b0db0f17f d282c45002
commit bf6cd4b9da
9 changed files with 13 additions and 8 deletions
--- a/fine_tune.py
+++ b/fine_tune.py
@@ -457,7 +457,7 @@ def train(args):
    accelerator.end_training()
-    if args.save_state and is_main_process:
+    if is_main_process and (args.save_state or args.save_state_on_train_end):        
        train_util.save_state_on_train_end(args, accelerator)
    del accelerator  # この後メモリを使うのでこれは消す
--- a/library/train_util.py
+++ b/library/train_util.py
@@ -2938,6 +2938,11 @@ def add_training_arguments(parser: argparse.ArgumentParser, support_dreambooth:
        action="store_true",
        help="save training state additionally (including optimizer states etc.) / optimizerなど学習状態も含めたstateを追加で保存する",
    )
    parser.add_argument(
        "--save_state_on_train_end",
        action="store_true",
        help="save training state additionally (including optimizer states etc.) on train end / optimizerなど学習状態も含めたstateを追加で保存する",
    )   
    parser.add_argument("--resume", type=str, default=None, help="saved state to resume training / 学習再開するモデルのstate")
    parser.add_argument("--train_batch_size", type=int, default=1, help="batch size for training / 学習時のバッチサイズ")
--- a/sdxl_train.py
+++ b/sdxl_train.py
@@ -712,7 +712,7 @@ def train(args):
    accelerator.end_training()
-    if args.save_state:  # and is_main_process:
+    if args.save_state or args.save_state_on_train_end:        
        train_util.save_state_on_train_end(args, accelerator)
    del accelerator  # この後メモリを使うのでこれは消す
--- a/sdxl_train_control_net_lllite.py
+++ b/sdxl_train_control_net_lllite.py
@@ -549,7 +549,7 @@ def train(args):
    accelerator.end_training()
-    if is_main_process and args.save_state:
+    if is_main_process and (args.save_state or args.save_state_on_train_end):
        train_util.save_state_on_train_end(args, accelerator)
    if is_main_process:
--- a/train_controlnet.py
+++ b/train_controlnet.py
@@ -565,7 +565,7 @@ def train(args):
    accelerator.end_training()
-    if is_main_process and args.save_state:
+    if is_main_process and (args.save_state or args.save_state_on_train_end):
        train_util.save_state_on_train_end(args, accelerator)
    # del accelerator  # この後メモリを使うのでこれは消す→printで使うので消さずにおく
--- a/train_db.py
+++ b/train_db.py
@@ -444,7 +444,7 @@ def train(args):
    accelerator.end_training()
-    if args.save_state and is_main_process:
+    if is_main_process and (args.save_state or args.save_state_on_train_end):
        train_util.save_state_on_train_end(args, accelerator)
    del accelerator  # この後メモリを使うのでこれは消す
--- a/train_network.py
+++ b/train_network.py
@@ -940,7 +940,7 @@ class NetworkTrainer:
        accelerator.end_training()
-        if is_main_process and args.save_state:
+        if is_main_process and (args.save_state or args.save_state_on_train_end):
            train_util.save_state_on_train_end(args, accelerator)
        if is_main_process:
--- a/train_textual_inversion.py
+++ b/train_textual_inversion.py
@@ -732,7 +732,7 @@ class TextualInversionTrainer:
        accelerator.end_training()
-        if args.save_state and is_main_process:
+        if is_main_process and (args.save_state or args.save_state_on_train_end):
            train_util.save_state_on_train_end(args, accelerator)
        if is_main_process:
--- a/train_textual_inversion_XTI.py
+++ b/train_textual_inversion_XTI.py
@@ -586,7 +586,7 @@ def train(args):
    accelerator.end_training()
-    if args.save_state and is_main_process:
+    if is_main_process and (args.save_state or args.save_state_on_train_end):
        train_util.save_state_on_train_end(args, accelerator)
    updated_embs = text_encoder.get_input_embeddings().weight[token_ids_XTI].data.detach().clone()