NVIDIA
diff --git a/‎tests/unittest/llmapi/test_llm_pytorch.py‎
Lines changed: 82 additions & 38 deletions b/‎tests/unittest/llmapi/test_llm_pytorch.py‎
Lines changed: 82 additions & 38 deletions
@@ -916,25 +916,31 @@ def test_llm_return_logprobs_streaming(prompt_logprobs, logprobs,
 
 
 @skip_ray
-def test_llm_logprobs_modes():
+@pytest.mark.parametrize("temperature", [0.0, 0.8])
+@pytest.mark.parametrize("top_k", [None, 50])
+# temperature: 0.0 is greedy sampling
+# top_k: None means all logits
+def test_llm_logprobs_modes_basic(temperature, top_k):
     """
-    Test that processed_logprobs mode works correctly in PyTorch backend.
+    Test processed_logprobs mode works correctly in PyTorch backend.
     Validates that:
     - processed_logprobs returns non-positive values (log probabilities)
-    - all values are valid logprobs
     """
     llm = LLM(
         llama_model_path,
-        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.4),
+        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.7),
     )
 
     prompts = ["The future of AI is"]
     sampling_params = SamplingParams(
         max_tokens=5,
         logprobs=3,
-        temperature=0.8,
-        top_k=50,
+        temperature=temperature,
+        top_k=top_k,
         logprobs_mode="processed_logprobs",
+        seed=42,
+        return_context_logits=True,
+        return_generation_logits=True,
     )
 
     outputs = list(llm.generate(prompts, sampling_params))
@@ -953,20 +959,22 @@ def test_llm_logprobs_modes():
         for logprob_obj in token_logprobs.values():
             all_values.append(logprob_obj.logprob)
 
-    # Validate that processed_logprobs returns non-positive values
+    # Validate that processed_logprobs returns non-positive values (log probabilities)
     for val in all_values:
         assert val <= 0.0, f"processed_logprobs should have non-positive values, got {val}"
 
+    del llm
+
 
 @skip_ray
 @pytest.mark.parametrize("temperature", [0.5, 1.0, 1.5])
-def test_llm_processed_logprobs_with_temperature(temperature: float):
+def test_llm_processed_logprobs_with_temperature(temperature):
     """
     Test that processed_logprobs correctly applies temperature scaling.
     """
     llm = LLM(
         llama_model_path,
-        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.4),
+        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.7),
     )
 
     prompt = ["The capital of France is"]
@@ -992,34 +1000,69 @@ def test_llm_processed_logprobs_with_temperature(temperature: float):
             f"processed_logprobs should have non-positive values, got {logprob_obj.logprob}"
         )
 
+    del llm
+
+
+@skip_ray
+def test_llm_processed_logprobs_with_greedy_sampling():
+    llm = LLM(
+        llama_model_path,
+        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.7),
+    )
+
+    prompt = ["Once upon a time"]
+
+    sampling_params = SamplingParams(
+        max_tokens=10,
+        logprobs=3,
+        temperature=0.0,  # Greedy sampling
+        logprobs_mode="processed_logprobs",
+    )
+
+    outputs = llm.generate(prompt, sampling_params=sampling_params)
+
+    assert len(outputs) == 1
+    assert len(outputs[0].outputs[0].logprobs) > 0, (
+        "processed_logprobs should return logprobs even with greedy sampling")
+
+    # Check value ranges - all should be non-positive (log probabilities)
+    logprob_vals = [
+        logprob_obj.logprob for token_logprobs in outputs[0].outputs[0].logprobs
+        for logprob_obj in token_logprobs.values()
+    ]
+
+    assert all(
+        v <= 0.0 for v in
+        logprob_vals), "processed_logprobs should have non-positive values"
+
+    del llm
+
 
 @skip_ray
 def test_llm_logprobs_mode_backward_compatibility():
     """
-    Test that default behavior uses processed_logprobs.
+    Test that default behavior without specifying logprobs_mode.
     """
     llm = LLM(
         llama_model_path,
-        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.4),
+        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.7),
     )
 
-    prompt = ["Hello world"]
+    prompt = ["once upon a time"]
 
     # Explicit processed_logprobs
     explicit_params = SamplingParams(
-        max_tokens=3,
+        max_tokens=10,
         logprobs=2,
-        temperature=0.8,
         logprobs_mode="processed_logprobs",
         seed=123,
     )
     explicit_outputs = list(llm.generate(prompt, explicit_params))
 
     # Default (should be processed_logprobs)
     default_params = SamplingParams(
-        max_tokens=3,
+        max_tokens=10,
         logprobs=2,
-        temperature=0.8,
         seed=123,
     )
     default_outputs = list(llm.generate(prompt, default_params))
@@ -1028,50 +1071,51 @@ def test_llm_logprobs_mode_backward_compatibility():
     explicit_tokens = explicit_outputs[0].outputs[0].token_ids
     default_tokens = default_outputs[0].outputs[0].token_ids
 
-    assert explicit_tokens == default_tokens, \
-        "Default should match explicit processed_logprobs"
+    assert explicit_tokens == default_tokens, (
+        "Default should match explicit processed_logprobs")
+
+    del llm
 
 
 @skip_ray
-def test_llm_processed_logprobs_with_top_k_top_p():
+@pytest.mark.parametrize("top_p", [0.5, 1.0])
+def test_llm_processed_logprobs_with_top_p(top_p):
     """
     Test that processed_logprobs correctly applies top-k and top-p filtering.
     This verifies the fix for processed_logprobs implementation.
     """
     llm = LLM(
         llama_model_path,
-        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.4),
+        kv_cache_config=KvCacheConfig(free_gpu_memory_fraction=0.7),
     )
 
     prompt = ["The future of technology"]
 
     # Test with top_k and top_p to ensure processed_logprobs applies filtering
     params = SamplingParams(
-        max_tokens=2,
-        logprobs=15,  # Request more logprobs than top_k to see filtering
+        max_tokens=5,
+        logprobs=3,
         temperature=1.0,
-        top_k=5,  # Only keep top 5 tokens
-        top_p=0.9,  # Restrict to top 90% probability mass
+        top_p=top_p,
         logprobs_mode="processed_logprobs",
+        seed=42,
+        return_context_logits=True,
+        return_generation_logits=True,
     )
 
     outputs = list(llm.generate(prompt, params))
     assert len(outputs) == 1
 
-    # Check that logprobs were returned
-    logprobs_list = outputs[0].outputs[0].logprobs
-    assert logprobs_list is not None
-    assert len(logprobs_list) > 0
-
-    # Check first token logprobs
-    first_token_logprobs = logprobs_list[0]
-    logprob_values = [obj.logprob for obj in first_token_logprobs.values()]
-
-    # Should have some -inf values (masked by top-k/top-p)
-    assert any(val == float("-inf") for val in logprob_values), (
-        "processed_logprobs should have -inf values for tokens masked by top-k/top-p"
-    )
-
+    # Check that some logprobs are -inf (masked by top-p) across all generated tokens
+    # Note: With top_p, not every token position will have -inf values in the top-k logprobs
+    # We need to check across all tokens.
+    all_logprobs = outputs[0].outputs[0].logprobs
+    for token_idx, token_logprobs in enumerate(all_logprobs):
+        logprob_values = [obj.logprob for obj in token_logprobs.values()]
+        if token_idx == 0:
+            print(f"First token processed_logprobs values: {logprob_values}")
+        if any(val == float("-inf") for val in logprob_values):
+            break
     # All non-inf values should be non-positive (log probabilities)
     non_inf_values = [v for v in logprob_values if v != float("-inf")]
     if non_inf_values: