New script:

5.XSeg) data_dst/src mask for XSeg trainer - fetch.bat Copies faces containing XSeg polygons to aligned_xseg\ dir. Useful only if you want to collect labeled faces and reuse them in other fakes. Now you can use trained XSeg mask in the SAEHD training process. It’s mean default ‘full_face’ mask obtained from landmarks will be replaced with the mask obtained from the trained XSeg model. use 5.XSeg.optional) trained mask for data_dst/data_src - apply.bat 5.XSeg.optional) trained mask for data_dst/data_src - remove.bat Normally you don’t need it. You can use it, if you want to use ‘face_style’ and ‘bg_style’ with obstructions. XSeg trainer : now you can choose type of face XSeg trainer : now you can restart training in “override settings” Merger: XSeg-* modes now can be used with all types of faces. Therefore old MaskEditor, FANSEG models, and FAN-x modes have been removed, because the new XSeg solution is better, simpler and more convenient, which costs only 1 hour of manual masking for regular deepfake.
2025-08-21 05:53:24 -07:00 · 2020-03-30 14:00:40 +04:00 · 2020-03-30 14:00:40 +04:00 · 6d3607a13d
commit 6d3607a13d
parent e5bad483ca
30 changed files with 279 additions and 1520 deletions
--- a/merger/InteractiveMergerSubprocessor.py
+++ b/merger/InteractiveMergerSubprocessor.py
@ -66,7 +66,6 @@ class InteractiveMergerSubprocessor(Subprocessor):
            self.predictor_func = client_dict['predictor_func']
            self.predictor_input_shape = client_dict['predictor_input_shape']
            self.face_enhancer_func = client_dict['face_enhancer_func']
-            self.fanseg_full_face_256_extract_func = client_dict['fanseg_full_face_256_extract_func']
            self.xseg_256_extract_func = client_dict['xseg_256_extract_func']


@ -103,7 +102,6 @@ class InteractiveMergerSubprocessor(Subprocessor):
                    try:
                        final_img = MergeMasked (self.predictor_func, self.predictor_input_shape,
                                                 face_enhancer_func=self.face_enhancer_func,
-                                                 fanseg_full_face_256_extract_func=self.fanseg_full_face_256_extract_func,
                                                 xseg_256_extract_func=self.xseg_256_extract_func,
                                                 cfg=cfg,
                                                 frame_info=frame_info)
@ -137,7 +135,7 @@ class InteractiveMergerSubprocessor(Subprocessor):


    #override
-    def __init__(self, is_interactive, merger_session_filepath, predictor_func, predictor_input_shape, face_enhancer_func, fanseg_full_face_256_extract_func, xseg_256_extract_func, merger_config, frames, frames_root_path, output_path, output_mask_path, model_iter):
+    def __init__(self, is_interactive, merger_session_filepath, predictor_func, predictor_input_shape, face_enhancer_func, xseg_256_extract_func, merger_config, frames, frames_root_path, output_path, output_mask_path, model_iter):
        if len (frames) == 0:
            raise ValueError ("len (frames) == 0")

@ -151,7 +149,6 @@ class InteractiveMergerSubprocessor(Subprocessor):
        self.predictor_input_shape = predictor_input_shape

        self.face_enhancer_func = face_enhancer_func
-        self.fanseg_full_face_256_extract_func = fanseg_full_face_256_extract_func
        self.xseg_256_extract_func = xseg_256_extract_func

        self.frames_root_path = frames_root_path
@ -273,7 +270,6 @@ class InteractiveMergerSubprocessor(Subprocessor):
                                      'predictor_func': self.predictor_func,
                                      'predictor_input_shape' : self.predictor_input_shape,
                                      'face_enhancer_func': self.face_enhancer_func,
-                                      'fanseg_full_face_256_extract_func' : self.fanseg_full_face_256_extract_func,
                                      'xseg_256_extract_func' : self.xseg_256_extract_func,
                                      'stdin_fd': sys.stdin.fileno() if MERGER_DEBUG else None
                                      }
--- a/merger/MergeMasked.py
+++ b/merger/MergeMasked.py
@ -8,12 +8,10 @@ from facelib import FaceType, LandmarksProcessor
 from core.interact import interact as io
 from core.cv2ex import *

-fanseg_input_size = 256
 xseg_input_size = 256

 def MergeMaskedFace (predictor_func, predictor_input_shape, 
                     face_enhancer_func,
-                     fanseg_full_face_256_extract_func, 
                     xseg_256_extract_func,
                     cfg, frame_info, img_bgr_uint8, img_bgr, img_face_landmarks):
    img_size = img_bgr.shape[1], img_bgr.shape[0]
@ -73,61 +71,27 @@ def MergeMaskedFace (predictor_func, predictor_input_shape,

    if cfg.mask_mode == 2: #dst
        prd_face_mask_a_0 = cv2.resize (dst_face_mask_a_0, (output_size,output_size), cv2.INTER_CUBIC)
-    elif cfg.mask_mode >= 3 and cfg.mask_mode <= 7:
-
+    elif cfg.mask_mode >= 3 and cfg.mask_mode <= 6:  #XSeg modes      
        if cfg.mask_mode == 3 or cfg.mask_mode == 5 or cfg.mask_mode == 6:
-            prd_face_fanseg_bgr = cv2.resize (prd_face_bgr, (fanseg_input_size,)*2 )
-            prd_face_fanseg_mask = fanseg_full_face_256_extract_func(prd_face_fanseg_bgr)
-            FAN_prd_face_mask_a_0 = cv2.resize ( prd_face_fanseg_mask, (output_size, output_size), cv2.INTER_CUBIC)
-
-        if cfg.mask_mode >= 4 and cfg.mask_mode <= 7:
-
-            full_face_fanseg_mat = LandmarksProcessor.get_transform_mat (img_face_landmarks, fanseg_input_size, face_type=FaceType.FULL)
-            dst_face_fanseg_bgr = cv2.warpAffine(img_bgr, full_face_fanseg_mat, (fanseg_input_size,)*2, flags=cv2.INTER_CUBIC )
-            dst_face_fanseg_mask = fanseg_full_face_256_extract_func(dst_face_fanseg_bgr )
-
-            if cfg.face_type == FaceType.FULL:
-                FAN_dst_face_mask_a_0 = cv2.resize (dst_face_fanseg_mask, (output_size,output_size), cv2.INTER_CUBIC)
-            else:
-                face_fanseg_mat = LandmarksProcessor.get_transform_mat (img_face_landmarks, fanseg_input_size, face_type=cfg.face_type)
-
-                fanseg_rect_corner_pts = np.array ( [ [0,0], [fanseg_input_size-1,0], [0,fanseg_input_size-1] ], dtype=np.float32 )
-                a = LandmarksProcessor.transform_points (fanseg_rect_corner_pts, face_fanseg_mat, invert=True )
-                b = LandmarksProcessor.transform_points (a, full_face_fanseg_mat )
-                m = cv2.getAffineTransform(b, fanseg_rect_corner_pts)
-                FAN_dst_face_mask_a_0 = cv2.warpAffine(dst_face_fanseg_mask, m, (fanseg_input_size,)*2, flags=cv2.INTER_CUBIC )
-                FAN_dst_face_mask_a_0 = cv2.resize (FAN_dst_face_mask_a_0, (output_size,output_size), cv2.INTER_CUBIC)
-
-        if cfg.mask_mode == 3:   #FAN-prd
-            prd_face_mask_a_0 = FAN_prd_face_mask_a_0
-        elif cfg.mask_mode == 4: #FAN-dst
-            prd_face_mask_a_0 = FAN_dst_face_mask_a_0
-        elif cfg.mask_mode == 5:
-            prd_face_mask_a_0 = FAN_prd_face_mask_a_0 * FAN_dst_face_mask_a_0
-        elif cfg.mask_mode == 6:
-            prd_face_mask_a_0 = prd_face_mask_a_0 * FAN_prd_face_mask_a_0 * FAN_dst_face_mask_a_0
-        elif cfg.mask_mode == 7:
-            prd_face_mask_a_0 = prd_face_mask_a_0 * FAN_dst_face_mask_a_0
-            
-    elif cfg.mask_mode >= 8 and cfg.mask_mode <= 11:        
-        if cfg.mask_mode == 8 or cfg.mask_mode == 10 or cfg.mask_mode == 11:
+            # obtain XSeg-prd
            prd_face_xseg_bgr = cv2.resize (prd_face_bgr, (xseg_input_size,)*2, cv2.INTER_CUBIC)
            prd_face_xseg_mask = xseg_256_extract_func(prd_face_xseg_bgr)
            X_prd_face_mask_a_0 = cv2.resize ( prd_face_xseg_mask, (output_size, output_size), cv2.INTER_CUBIC)

-        if cfg.mask_mode >= 9 and cfg.mask_mode <= 11:            
-            whole_face_mat      = LandmarksProcessor.get_transform_mat (img_face_landmarks, xseg_input_size, face_type=FaceType.WHOLE_FACE)
-            dst_face_xseg_bgr   = cv2.warpAffine(img_bgr, whole_face_mat, (xseg_input_size,)*2, flags=cv2.INTER_CUBIC )
+        if cfg.mask_mode >= 4 and cfg.mask_mode <= 6:      
+            # obtain XSeg-dst
+            xseg_mat            = LandmarksProcessor.get_transform_mat (img_face_landmarks, xseg_input_size, face_type=cfg.face_type)
+            dst_face_xseg_bgr   = cv2.warpAffine(img_bgr, xseg_mat, (xseg_input_size,)*2, flags=cv2.INTER_CUBIC )
            dst_face_xseg_mask  = xseg_256_extract_func(dst_face_xseg_bgr)
            X_dst_face_mask_a_0 = cv2.resize (dst_face_xseg_mask, (output_size,output_size), cv2.INTER_CUBIC)

-        if cfg.mask_mode == 8:   #'XSeg-prd',
+        if cfg.mask_mode == 3:   #'XSeg-prd',
            prd_face_mask_a_0 = X_prd_face_mask_a_0
-        elif cfg.mask_mode == 9: #'XSeg-dst',
+        elif cfg.mask_mode == 4: #'XSeg-dst',
            prd_face_mask_a_0 = X_dst_face_mask_a_0
-        elif cfg.mask_mode == 10: #'XSeg-prd*XSeg-dst',
+        elif cfg.mask_mode == 5: #'XSeg-prd*XSeg-dst',
            prd_face_mask_a_0 = X_prd_face_mask_a_0 * X_dst_face_mask_a_0
-        elif cfg.mask_mode == 11: #learned*XSeg-prd*XSeg-dst'
+        elif cfg.mask_mode == 6: #learned*XSeg-prd*XSeg-dst'
            prd_face_mask_a_0 = prd_face_mask_a_0 * X_prd_face_mask_a_0 * X_dst_face_mask_a_0
        
    prd_face_mask_a_0[ prd_face_mask_a_0 < (1.0/255.0) ] = 0.0 # get rid of noise
@ -346,7 +310,6 @@ def MergeMaskedFace (predictor_func, predictor_input_shape,
 def MergeMasked (predictor_func, 
                 predictor_input_shape,
                 face_enhancer_func,
-                 fanseg_full_face_256_extract_func, 
                 xseg_256_extract_func, 
                 cfg, 
                 frame_info):
@ -356,7 +319,7 @@ def MergeMasked (predictor_func,

    outs = []
    for face_num, img_landmarks in enumerate( frame_info.landmarks_list ):
-        out_img, out_img_merging_mask = MergeMaskedFace (predictor_func, predictor_input_shape, face_enhancer_func, fanseg_full_face_256_extract_func, xseg_256_extract_func, cfg, frame_info, img_bgr_uint8, img_bgr, img_landmarks)
+        out_img, out_img_merging_mask = MergeMaskedFace (predictor_func, predictor_input_shape, face_enhancer_func, xseg_256_extract_func, cfg, frame_info, img_bgr_uint8, img_bgr, img_landmarks)
        outs += [ (out_img, out_img_merging_mask) ]

    #Combining multiple face outputs
--- a/merger/MergerConfig.py
+++ b/merger/MergerConfig.py
@ -83,34 +83,14 @@ mode_str_dict = {}
 for key in mode_dict.keys():
    mode_str_dict[ mode_dict[key] ] = key

-"""
-whole_face_mask_mode_dict = {1:'learned',
-                             2:'dst',
-                             3:'FAN-prd',
-                             4:'FAN-dst',
-                             5:'FAN-prd*FAN-dst',
-                             6:'learned*FAN-prd*FAN-dst'                                  
-                             }
-"""
-whole_face_mask_mode_dict = {1:'learned',
-                             2:'dst',
-                             8:'XSeg-prd',
-                             9:'XSeg-dst',
-                             10:'XSeg-prd*XSeg-dst',
-                             11:'learned*XSeg-prd*XSeg-dst'                             
-                             }
+mask_mode_dict = {1:'learned',
+                  2:'dst',
+                  3:'XSeg-prd',
+                  4:'XSeg-dst',
+                  5:'XSeg-prd*XSeg-dst',
+                  6:'learned*XSeg-prd*XSeg-dst'                             
+                  }
                               
-full_face_mask_mode_dict = {1:'learned',
-                                    2:'dst',
-                                    3:'FAN-prd',
-                                    4:'FAN-dst',
-                                    5:'FAN-prd*FAN-dst',
-                                    6:'learned*FAN-prd*FAN-dst'}
-
-half_face_mask_mode_dict = {1:'learned',
-                                    2:'dst',
-                                    4:'FAN-dst',
-                                    7:'learned*FAN-dst'}

 ctm_dict = { 0: "None", 1:"rct", 2:"lct", 3:"mkl", 4:"mkl-m", 5:"idt", 6:"idt-m", 7:"sot-m", 8:"mix-m" }
 ctm_str_dict = {None:0, "rct":1, "lct":2, "mkl":3, "mkl-m":4, "idt":5, "idt-m":6, "sot-m":7, "mix-m":8 }
@ -176,12 +156,7 @@ class MergerConfigMasked(MergerConfig):
            self.hist_match_threshold = np.clip ( self.hist_match_threshold+diff , 0, 255)

    def toggle_mask_mode(self):
-        if self.face_type == FaceType.WHOLE_FACE:
-            a = list( whole_face_mask_mode_dict.keys() )
-        elif self.face_type == FaceType.FULL:
-            a = list( full_face_mask_mode_dict.keys() )
-        else:
-            a = list( half_face_mask_mode_dict.keys() )
+        a = list( mask_mode_dict.keys() )
        self.mask_mode = a[ (a.index(self.mask_mode)+1) % len(a) ]

    def add_erode_mask_modifier(self, diff):
@ -227,26 +202,11 @@ class MergerConfigMasked(MergerConfig):
            if self.mode == 'hist-match' or self.mode == 'seamless-hist-match':
                self.hist_match_threshold = np.clip ( io.input_int("Hist match threshold", 255, add_info="0..255"), 0, 255)

-        if self.face_type == FaceType.WHOLE_FACE:
-            s = """Choose mask mode: \n"""
-            for key in whole_face_mask_mode_dict.keys():
-                s += f"""({key}) {whole_face_mask_mode_dict[key]}\n"""
-            io.log_info(s)
-
-            self.mask_mode = io.input_int ("", 1, valid_list=whole_face_mask_mode_dict.keys() )
-        elif self.face_type == FaceType.FULL:
-            s = """Choose mask mode: \n"""
-            for key in full_face_mask_mode_dict.keys():
-                s += f"""({key}) {full_face_mask_mode_dict[key]}\n"""
-            io.log_info(s)
-
-            self.mask_mode = io.input_int ("", 1, valid_list=full_face_mask_mode_dict.keys(), help_message="If you learned the mask, then option 1 should be choosed. 'dst' mask is raw shaky mask from dst aligned images. 'FAN-prd' - using super smooth mask by pretrained FAN-model from predicted face. 'FAN-dst' - using super smooth mask by pretrained FAN-model from dst face. 'FAN-prd*FAN-dst' or 'learned*FAN-prd*FAN-dst' - using multiplied masks.")
-        else:
-            s = """Choose mask mode: \n"""
-            for key in half_face_mask_mode_dict.keys():
-                s += f"""({key}) {half_face_mask_mode_dict[key]}\n"""
-            io.log_info(s)
-            self.mask_mode = io.input_int ("", 1, valid_list=half_face_mask_mode_dict.keys(), help_message="If you learned the mask, then option 1 should be choosed. 'dst' mask is raw shaky mask from dst aligned images.")
+        s = """Choose mask mode: \n"""
+        for key in mask_mode_dict.keys():
+            s += f"""({key}) {mask_mode_dict[key]}\n"""
+        io.log_info(s)
+        self.mask_mode = io.input_int ("", 1, valid_list=mask_mode_dict.keys() )

        if 'raw' not in self.mode:
            self.erode_mask_modifier = np.clip ( io.input_int ("Choose erode mask modifier", 0, add_info="-400..400"), -400, 400)
@ -302,14 +262,9 @@ class MergerConfigMasked(MergerConfig):

        if self.mode == 'hist-match' or self.mode == 'seamless-hist-match':
            r += f"""hist_match_threshold: {self.hist_match_threshold}\n"""
-
-        if self.face_type == FaceType.WHOLE_FACE:
-            r += f"""mask_mode: { whole_face_mask_mode_dict[self.mask_mode] }\n"""
-        elif self.face_type == FaceType.FULL:
-            r += f"""mask_mode: { full_face_mask_mode_dict[self.mask_mode] }\n"""
-        else:
-            r += f"""mask_mode: { half_face_mask_mode_dict[self.mask_mode] }\n"""
-
+        
+        r += f"""mask_mode: { mask_mode_dict[self.mask_mode] }\n"""
+        
        if 'raw' not in self.mode:
            r += (f"""erode_mask_modifier: {self.erode_mask_modifier}\n"""
                  f"""blur_mask_modifier: {self.blur_mask_modifier}\n"""