delete print

lizexu123 · lizexu123 · commit 9e2eea469771 · 2025-10-24T17:43:42.000+08:00
diff --git a/custom_ops/gpu_ops/cpp_extensions.cc b/custom_ops/gpu_ops/cpp_extensions.cc
@@ -361,8 +361,7 @@ void GetStopFlagsMulti(const paddle::Tensor &topk_ids,
                        const paddle::Tensor &step_idx,
                        const paddle::Tensor &stop_seqs,
                        const paddle::Tensor &stop_seqs_len,
-                       const bool beam_search,
-                       const bool is_pooling);
+                       const bool beam_search);
 
 
 void UpdateInputes(const paddle::Tensor &stop_flags,
diff --git a/custom_ops/gpu_ops/stop_generation_multi_ends.cu b/custom_ops/gpu_ops/stop_generation_multi_ends.cu
@@ -38,21 +38,12 @@ __global__ void set_value_by_flags(bool *stop_flags,
                                    const int stop_seqs_bs,
                                    const int stop_seqs_max_len,
                                    bool beam_search,
-                                   bool prefill_one_step_stop,
-                                   bool is_pooling) {
+                                   bool prefill_one_step_stop) {
     int tid = threadIdx.x;
     int bid = blockIdx.x;
     if (tid >= stop_seqs_bs) return;
     if (bid < bs) {
         if(tid == 0){
-            if (is_pooling)
-            {
-                if(prefill_one_step_stop)
-                {
-                    stop_flags[bid] = true;
-                }
-                return;
-            }
             if (prefill_one_step_stop) {
                 stop_flags[bid] = true;
                 if (seq_lens[bid] == 0) {
@@ -78,7 +69,6 @@ __global__ void set_value_by_flags(bool *stop_flags,
             }
         }
         // dealing stop_seqs
-        if (is_pooling) return;
         const int stop_seq_len = (stop_seqs_len + bid * stop_seqs_bs)[tid];
         if (stop_seq_len <= 0) return;
         const int64_t *stop_seq_now = stop_seqs + bid * stop_seqs_bs + tid * stop_seqs_max_len;
@@ -111,8 +101,7 @@ void GetStopFlagsMulti(const paddle::Tensor &topk_ids,
                        const paddle::Tensor &step_idx,
                        const paddle::Tensor &stop_seqs,
                        const paddle::Tensor &stop_seqs_len,
-                       const bool beam_search,
-                       const bool is_pooling) {
+                       const bool beam_search) {
     PD_CHECK(topk_ids.dtype() == paddle::DataType::INT64);
     PD_CHECK(stop_flags.dtype() == paddle::DataType::BOOL);
     bool prefill_one_step_stop = false;
@@ -151,13 +140,12 @@ void GetStopFlagsMulti(const paddle::Tensor &topk_ids,
         stop_seqs_bs,
         stop_seqs_max_len,
         beam_search,
-        prefill_one_step_stop,
-        is_pooling);
+        prefill_one_step_stop);
 }
 
 PD_BUILD_STATIC_OP(set_stop_value_multi_ends)
     .Inputs({"topk_ids", "stop_flags", "seq_lens", "end_ids", "next_tokens", "pre_ids", "step_idx", "stop_seqs", "stop_seqs_len"})
-    .Attrs({"beam_search: bool","is_pooling:bool"})
+    .Attrs({"beam_search: bool"})
     .Outputs({"topk_ids_out", "stop_flags_out", "next_tokens_out"})
     .SetInplaceMap({{"topk_ids", "topk_ids_out"},
                     {"stop_flags", "stop_flags_out"},
diff --git a/custom_ops/gpu_ops/update_inputs_v1.cu b/custom_ops/gpu_ops/update_inputs_v1.cu
@@ -118,8 +118,6 @@ __global__ void update_inputs_kernel_v1(bool *not_need_stop,
     int64_t stop_sum = BlockReduce(temp_storage).Sum(stop_flag_now_int);
     if (thread_idx == 0) {
         not_need_stop[0] = stop_sum < stop_nums[0];
-        printf("[CUDA DEBUG] Stop sum: %lld / %lld, not_need_stop=%d\n",
-               stop_sum, stop_nums[0], not_need_stop[0]);
     }
 }
 
diff --git a/fastdeploy/model_executor/pre_and_post_process.py b/fastdeploy/model_executor/pre_and_post_process.py
@@ -824,22 +824,6 @@ def post_process_pooling(
         model_output.stop_flags,
     )
 
-    if current_platform.is_cuda() or current_platform.is_iluvatar() or current_platform.is_dcu():
-        dummy_tokens = paddle.full_like(model_output.next_tokens, -1, dtype="int64")
-        set_stop_value_multi_ends(
-            dummy_tokens,
-            model_output.stop_flags,
-            model_output.seq_lens_this_time,
-            model_output.eos_token_id,
-            model_output.next_tokens,
-            model_output.pre_ids,
-            model_output.step_idx,
-            model_output.stop_token_ids,
-            model_output.stop_seqs_len,
-            False,
-            True,
-        )
-
     with paddle.framework._no_check_dy2st_diff():
         if envs.ENABLE_V1_KVCACHE_SCHEDULER:
             dummy_sampled_tokens = paddle.full_like(model_output.next_tokens, -1, dtype="int64")
diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
@@ -262,7 +262,6 @@ def _process_batch_output_use_zmq(self, receive_datas):
 
             if task.pooling_params is not None:
                 pooler_output = stream_data.pooler_output
-                llm_logger.info(f"xxxxxxpooler_output:{pooler_output}")
                 if isinstance(pooler_output, np.ndarray):
                     pooler_output = pooler_output.tolist()
                 result = PoolingRequestOutput(
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -2107,51 +2107,6 @@ def _pool(self, hidden_states: paddle.Tensor, num_running_requests: int) -> Opti
 
         return pooler_output
 
-    def _schedule_cache_and_update_buffer(
-        self, model_forward_batch: Optional[List[Request]], num_running_request: int
-    ) -> None:
-
-        # Update 'infer_seed' and step_cuda()
-        self.share_inputs["infer_seed"].add_(self.infer_seed_increment)
-        self.share_inputs["infer_seed"][:] %= self.MAX_INFER_SEED
-
-        if not envs.ENABLE_V1_KVCACHE_SCHEDULER:
-            step_cuda(
-                self.share_inputs,
-                self.cache_config.block_size,
-                self.cache_config.enc_dec_block_num,
-                self.speculative_config,
-                self.cache_config.enable_prefix_caching,
-            )
-
-            self._update_chunked_prefill(model_forward_batch)
-            self._add_cache(model_forward_batch)
-        elif self.speculative_decoding:
-            speculate_schedule_cache(
-                self.share_inputs["draft_tokens"],
-                self.share_inputs["block_tables"],
-                self.share_inputs["stop_flags"],
-                self.share_inputs["prompt_lens"],
-                self.share_inputs["seq_lens_this_time"],
-                self.share_inputs["seq_lens_encoder"],
-                self.share_inputs["seq_lens_decoder"],
-                self.share_inputs["step_seq_lens_decoder"],
-                self.share_inputs["step_draft_tokens"],
-                self.share_inputs["step_seq_lens_this_time"],
-                self.share_inputs["accept_num"],
-                self.share_inputs["accept_tokens"],
-                self.share_inputs["is_block_step"],
-                self.share_inputs["not_need_stop"],
-                self.share_inputs["stop_nums"],
-                self.cache_config.block_size,
-                self.speculative_config.num_speculative_tokens,
-            )
-
-        # Copy seq_lens_this_time buffer
-        self.seq_lens_this_time_buffer[:num_running_request].copy_(
-            self.share_inputs["seq_lens_this_time"][:num_running_request], False
-        )
-
     def _add_cache(self, model_forward_batch) -> None:
         """
         Add cache for guided decoding.
diff --git a/fastdeploy/worker/gpu_worker.py b/fastdeploy/worker/gpu_worker.py
@@ -16,7 +16,6 @@
 
 import gc
 import time
-import traceback
 from typing import List, Optional
 
 import paddle
@@ -191,13 +190,8 @@ def execute_model(
         num_running_request: int = None,
     ) -> Optional[ModelRunnerOutput]:
         """ """
-        try:
-            output = self.model_runner.execute_model(model_forward_batch, num_running_request)
-            return output
-        except Exception as e:
-            traceback.print_exc()
-            logger.error(f"model_runner.execute_model failed, {str(e)}")
-            raise e
+        output = self.model_runner.execute_model(model_forward_batch, num_running_request)
+        return output
 
     def preprocess_new_task(self, req_dicts: List[Request], num_running_requests: int) -> None:
         """Process new requests and then start the decode loop

Original file line number	Diff line number	Diff line change
`@@ -118,8 +118,6 @@ __global__ void update_inputs_kernel_v1(bool *not_need_stop,`
`118`	`118`	`int64_t stop_sum = BlockReduce(temp_storage).Sum(stop_flag_now_int);`
`119`	`119`	`if (thread_idx == 0) {`
`120`	`120`	`not_need_stop[0] = stop_sum < stop_nums[0];`
`121`		`- printf("[CUDA DEBUG] Stop sum: %lld / %lld, not_need_stop=%d\n",`
`122`		`- stop_sum, stop_nums[0], not_need_stop[0]);`
`123`	`121`	`}`
`124`	`122`	`}`
`125`	`123`