[https://nvbugs/5488576][fix] Propagate disable_finalize_fusion config flag in WIDEEP MoE backend (cherry-pick #8141) (#8566)

kaiyux · sklevtsov-nvidia · web-flow · commit c7b06b1b0a74 · 2025-10-22T21:46:59.000+08:00
Signed-off-by: Sergey Klevtsov &lt;sklevtsov@nvidia.com&gt;
Co-authored-by: Sergey Klevtsov &lt;141879860+sklevtsov-nvidia@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/modules/fused_moe/fused_moe_wide_ep.py b/tensorrt_llm/_torch/modules/fused_moe/fused_moe_wide_ep.py
@@ -222,6 +222,8 @@ def __init__(
                     f"Not available alltoall method type: {self.alltoall_method_type!r}"
                 )
 
+        self.use_fused_finalize = not model_config.moe_disable_finalize_fusion
+
         self._weights_created = False
         if not model_config.skip_create_weights_in_init:
             self.create_weights()
@@ -689,7 +691,7 @@ def forward_chunk(
             input_sf=x_sf,
             swizzled_input_sf=False,
             min_latency_mode=False,
-            use_fused_finalize=True,
+            use_fused_finalize=self.use_fused_finalize,
             tuner_num_tokens=tuner_num_tokens,
             tuner_top_k=tuner_top_k,
         )