HabanaAI · hlin99 · Nov 21, 2025
@@ -1686,9 +1686,6 @@ def _verify_args(self) -> None:
             and not self.use_padding_aware_scheduling:
             raise ValueError("max_num_prefill_seqs can be only "
                              "used with padding-aware-scheduling. ")
-        if self.use_padding_aware_scheduling and self.chunked_prefill_enabled:
-            raise ValueError("Padding-aware scheduling currently "
-                             "does not work with chunked prefill ")
 
     @property
     def is_multi_step(self) -> bool:

@@ -1399,10 +1399,17 @@ def _schedule_chunked_prefill(self) -> SchedulerOutputs:
         inter token latency because decodes requests don't need to be blocked
         by prefill requests.
         """
-        budget = SchedulingBudget(
-            token_budget=self.scheduler_config.max_num_batched_tokens,
-            max_num_seqs=self.scheduler_config.max_num_seqs,
-        )
+        if self.scheduler_config.use_padding_aware_scheduling:
+            budget = PaddingAwareSchedulingBudget(
+                token_budget=self.scheduler_config.max_num_batched_tokens,
+                max_num_seqs=self.scheduler_config.max_num_seqs,
+                max_num_prefill_seqs=self.scheduler_config.max_num_prefill_seqs
+            )
+        else:
+            budget = SchedulingBudget(
+                token_budget=self.scheduler_config.max_num_batched_tokens,
+                max_num_seqs=self.scheduler_config.max_num_seqs,
+            )
         curr_loras: Set[int] = set()
 
         prefills = SchedulerPrefillOutputs.create_empty()