qwen: Implement transformer block prefetching

rattus128 · rattus128 · commit 0814c1f63f5f · 2025-11-10T16:10:23.000+10:00
diff --git a/comfy/ldm/qwen_image/model.py b/comfy/ldm/qwen_image/model.py
@@ -387,6 +387,9 @@ def _forward(
         hidden_states, img_ids, orig_shape = self.process_img(x)
         num_embeds = hidden_states.shape[1]
 
+        prefetch_queue = comfy.ops.make_prefetch_queue(list(self.transformer_blocks))
+        comfy.ops.prefetch_queue_pop(prefetch_queue, x.device, None)
+
         if ref_latents is not None:
             h = 0
             w = 0
@@ -436,6 +439,7 @@ def _forward(
         blocks_replace = patches_replace.get("dit", {})
 
         for i, block in enumerate(self.transformer_blocks):
+            comfy.ops.prefetch_queue_pop(prefetch_queue, x.device, block)
             if ("double_block", i) in blocks_replace:
                 def block_wrap(args):
                     out = {}
@@ -467,6 +471,8 @@ def block_wrap(args):
                     if add is not None:
                         hidden_states[:, :add.shape[1]] += add
 
+        comfy.ops.prefetch_queue_pop(prefetch_queue, x.device, block)
+
         hidden_states = self.norm_out(hidden_states, temb)
         hidden_states = self.proj_out(hidden_states)