Add optional tensorboard logging

2025-08-19 21:13:20 -07:00 · 2020-11-23 01:25:32 -08:00 · 2020-11-23 01:25:32 -08:00 · 075e8aaf82
commit 075e8aaf82
parent 73c21eb335
2 changed files with 66 additions and 0 deletions
--- a/main.py
+++ b/main.py
@ -127,6 +127,8 @@ if __name__ == "__main__":
                  'silent_start'             : arguments.silent_start,
                  'execute_programs'         : [ [int(x[0]), x[1] ] for x in arguments.execute_program ],
                  'debug'                    : arguments.debug,
+                  'tensorboard_dir'          : arguments.tensorboard_dir,
+                  'start_tensorboard'        : arguments.start_tensorboard
                  }
        from mainscripts import Trainer
        Trainer.main(**kwargs)
@ -144,6 +146,8 @@ if __name__ == "__main__":
    p.add_argument('--cpu-only', action="store_true", dest="cpu_only", default=False, help="Train on CPU.")
    p.add_argument('--force-gpu-idxs', dest="force_gpu_idxs", default=None, help="Force to choose GPU indexes separated by comma.")
    p.add_argument('--silent-start', action="store_true", dest="silent_start", default=False, help="Silent start. Automatically chooses Best GPU and last used model.")
+    p.add_argument('--tensorboard-logdir', action=fixPathAction, dest="tensorboard_dir", help="Directory of the tensorboard output files")
+    p.add_argument('--start-tensorboard', action="store_true", dest="start_tensorboard", default=False, help="Automatically start the tensorboard server preconfigured to the tensorboard-logdir")
    
    
    p.add_argument('--execute-program', dest="execute_program", default=[], action='append', nargs='+')
--- a/mainscripts/Trainer.py
+++ b/mainscripts/Trainer.py
@ -11,6 +11,41 @@ from core import imagelib
 import cv2
 import models
 from core.interact import interact as io
+import logging
+import datetime
+import os
+
+# adapted from https://stackoverflow.com/a/52295534
+class TensorBoardTool:
+    def __init__(self, dir_path):
+        self.dir_path = dir_path
+    def run(self):
+        from tensorboard import default
+        from tensorboard import program
+        # remove http messages
+        log = logging.getLogger('werkzeug').setLevel(logging.ERROR)
+        # Start tensorboard server
+        tb = program.TensorBoard(default.get_plugins())
+        tb.configure(argv=[None, '--logdir', self.dir_path, '--port', '6006', '--bind_all'])
+        url = tb.launch()
+        print('Launched TensorBoard at {}'.format(url))
+
+def process_img_for_tensorboard(input_img):
+    # convert format from bgr to rgb
+    img = cv2.cvtColor(input_img, cv2.COLOR_BGR2RGB)
+    # adjust axis to put channel count at the beginning
+    img = np.moveaxis(img, -1, 0)
+    return img
+
+def log_tensorboard_previews(iter, previews, folder_name, train_summary_writer):
+    for preview in previews:
+        (preview_name, preview_bgr) = preview
+        preview_rgb = process_img_for_tensorboard(preview_bgr)
+        train_summary_writer.add_image('{}/{}'.format(folder_name, preview_name), preview_rgb, iter)
+
+def log_tensorboard_model_previews(iter, model, train_summary_writer):
+    log_tensorboard_previews(iter, model.get_previews(), 'preview', train_summary_writer)
+    log_tensorboard_previews(iter, model.get_static_previews(), 'static_preview', train_summary_writer)

 def trainerThread (s2c, c2s, e,
                    model_class_name = None,
@ -26,6 +61,8 @@ def trainerThread (s2c, c2s, e,
                    silent_start=False,
                    execute_programs = None,
                    debug=False,
+                    tensorboard_dir=None,
+                    start_tensorboard=False,
                    **kwargs):
    while True:
        try:
@ -59,6 +96,21 @@ def trainerThread (s2c, c2s, e,

            is_reached_goal = model.is_reached_iter_goal()

+            train_summary_writer = None
+            if tensorboard_dir is not None:
+                try:
+                    import tensorboardX
+                    if not os.path.exists(tensorboard_dir):
+                        os.makedirs(tensorboard_dir)
+                    summary_writer_folder = os.path.join(tensorboard_dir, model.model_name)
+                    train_summary_writer = tensorboardX.SummaryWriter(summary_writer_folder)
+                    if start_tensorboard:
+                        tb_tool = TensorBoardTool(tensorboard_dir)
+                        tb_tool.run()
+                except:
+                    print("Error importing tensorboardX, please ensure it is installed (pip install tensorboardX)")
+                    print("Continuing training without tensorboard logging...")
+
            shared_state = { 'after_save' : False }
            loss_string = ""
            save_iter =  model.get_iter()
@ -74,6 +126,8 @@ def trainerThread (s2c, c2s, e,

            def send_preview():
                if not debug:
+                    if train_summary_writer is not None:
+                        log_tensorboard_model_previews(iter, model, train_summary_writer)
                    previews = model.get_previews()
                    c2s.put ( {'op':'show', 'previews': previews, 'iter':model.get_iter(), 'loss_history': model.get_loss_history().copy() } )
                else:
@ -149,6 +203,14 @@ def trainerThread (s2c, c2s, e,
                            else:
                                io.log_info (loss_string, end='\r')

+                        if train_summary_writer is not None:
+                            # report iteration time summary
+                            train_summary_writer.add_scalar('iteration time', iter_time, iter)
+                            # report loss summary
+                            src_loss, dst_loss = loss_history[-1]
+                            train_summary_writer.add_scalar('loss/src', src_loss, iter)
+                            train_summary_writer.add_scalar('loss/dst', dst_loss, iter)
+
                        if model.get_iter() == 1:
                            model_save()