Use tasks from ssn to validate scenario (#294)

itsomri · web-flow · commit a49253b5055e · 2025-07-03T15:20:27.000+03:00
* Use tasks from ssn to validate scenario
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -10,6 +10,9 @@ The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/).
 - Added optional pod and namespace label selectors to limit the scope of monitored pods
 - Added a plugin extension point for scheduler plugins to add annotations to BindRequests.
 
+### Fixes
+- Fixed cases where reclaim validation operated on outdated info, allowing invalid reclaim scenarios
+
 ## [v0.6.0] - 2025-06-16
 
 ### Changed
diff --git a/pkg/scheduler/actions/common/solvers/scenario/base_scenario.go b/pkg/scheduler/actions/common/solvers/scenario/base_scenario.go
@@ -180,5 +180,11 @@ func (s *BaseScenario) GetPreemptor() *podgroup_info.PodGroupInfo {
 }
 
 func (s *BaseScenario) GetVictims() map[common_info.PodGroupID]*api.VictimInfo {
+	for _, victim := range s.victims {
+		for i, task := range victim.Tasks {
+			ogTask := s.getJobForTask(task).PodInfos[task.UID]
+			victim.Tasks[i] = ogTask
+		}
+	}
 	return s.victims
 }
diff --git a/pkg/scheduler/actions/reclaim/reclaim_test.go b/pkg/scheduler/actions/reclaim/reclaim_test.go
@@ -3710,5 +3710,344 @@ func getTestsMetadata() []integration_tests_utils.TestTopologyMetadata {
 				},
 			},
 		},
+		{
+			// In some cases, when multiple tasks and nodes are involved, tasks get re-written to the podgroupinfo object
+			// in the session - this test is to ensure that we don't have any issues with that
+			TestTopologyBasic: test_utils.TestTopologyBasic{
+				Name: "queue0 is in deserved share, queue1 is under fair share - do not reclaim - multiple tasks",
+				Jobs: []*jobs_fake.TestJobBasic{
+					{
+						Name:                "q0_n0_job0",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node0",
+								State:    pod_status.Running,
+							},
+						},
+					}, {
+						Name:                "q0_n0_job1",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node0",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n0_job2",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node0",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n0_job3",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node0",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n1_job0",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node1",
+								State:    pod_status.Running,
+							},
+						},
+					}, {
+						Name:                "q0_n1_job1",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node1",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n1_job2",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node1",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n1_job3",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node1",
+								State:    pod_status.Running,
+							},
+						},
+					}, {
+						Name:                "q0_n2_job0",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node2",
+								State:    pod_status.Running,
+							},
+						},
+					}, {
+						Name:                "q0_n2_job1",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node2",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n2_job2",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node2",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n2_job3",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node2",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n3_job0",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node3",
+								State:    pod_status.Running,
+							},
+						},
+					}, {
+						Name:                "q0_n3_job1",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node3",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n3_job2",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node3",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q0_n3_job3",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue0",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								NodeName: "node3",
+								State:    pod_status.Running,
+							},
+						},
+					},
+					{
+						Name:                "q1_job1",
+						RequiredGPUsPerTask: 1,
+						Priority:            constants.PriorityTrainNumber,
+						QueueName:           "queue1",
+						Tasks: []*tasks_fake.TestTaskBasic{
+							{
+								State: pod_status.Pending,
+							},
+							{
+								State: pod_status.Pending,
+							},
+							{
+								State: pod_status.Pending,
+							},
+							{
+								State: pod_status.Pending,
+							},
+							{
+								State: pod_status.Pending,
+							},
+						},
+					},
+				},
+				Nodes: map[string]nodes_fake.TestNodeBasic{
+					"node0": {
+						GPUs: 4,
+					},
+					"node1": {
+						GPUs: 4,
+					},
+					"node2": {
+						GPUs: 4,
+					},
+					"node3": {
+						GPUs: 4,
+					},
+				},
+				Queues: []test_utils.TestQueueBasic{
+					{
+						Name:               "queue0",
+						DeservedGPUs:       12,
+						GPUOverQuotaWeight: 0,
+					},
+					{
+						Name:               "queue1",
+						DeservedGPUs:       5,
+						GPUOverQuotaWeight: 1,
+					},
+				},
+				JobExpectedResults: map[string]test_utils.TestExpectedResultBasic{
+					"q0_n0_job0": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n0_job1": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n0_job2": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n0_job3": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n1_job0": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n1_job1": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n1_job2": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n1_job3": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n2_job0": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n2_job1": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n2_job2": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n2_job3": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n3_job0": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n3_job1": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n3_job2": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q0_n3_job3": {
+						GPUsRequired:         1,
+						Status:               pod_status.Running,
+						DontValidateGPUGroup: true,
+					},
+					"q1_job1": {
+						GPUsRequired:         5,
+						Status:               pod_status.Pending,
+						DontValidateGPUGroup: true,
+					},
+				},
+				Mocks: &test_utils.TestMock{
+					CacheRequirements: &test_utils.CacheMocking{
+						NumberOfCacheBinds:      0,
+						NumberOfCacheEvictions:  0,
+						NumberOfPipelineActions: 0,
+					},
+				},
+			},
+		},
 	}
 }
diff --git a/pkg/scheduler/plugins/proportion/proportion.go b/pkg/scheduler/plugins/proportion/proportion.go
@@ -138,16 +138,9 @@ func (pp *proportionPlugin) reclaimableFn(
 }
 
 func (pp *proportionPlugin) getVictimResources(victim *api.VictimInfo) []*resource_info.Resource {
-	var victimTasks []*pod_info.PodInfo
-	for _, job := range victim.RepresentativeJobs {
-		for _, task := range job.PodInfos {
-			victimTasks = append(victimTasks, task)
-		}
-	}
-
 	var victimResources []*resource_info.Resource
-	if len(victimTasks) > int(victim.Job.MinAvailable) {
-		elasticTasks := victimTasks[victim.Job.MinAvailable:]
+	if len(victim.Tasks) > int(victim.Job.MinAvailable) {
+		elasticTasks := victim.Tasks[victim.Job.MinAvailable:]
 		for _, task := range elasticTasks {
 			resources := getResources(pp.allowConsolidatingReclaim, task)
 			if resources == nil {
@@ -157,7 +150,7 @@ func (pp *proportionPlugin) getVictimResources(victim *api.VictimInfo) []*resour
 		}
 	}
 
-	resources := getResources(pp.allowConsolidatingReclaim, victimTasks[:victim.Job.MinAvailable]...)
+	resources := getResources(pp.allowConsolidatingReclaim, victim.Tasks[:victim.Job.MinAvailable]...)
 	if resources != nil {
 		victimResources = append(victimResources, resources)
 	}

Original file line number	Diff line number	Diff line change
`@@ -180,5 +180,11 @@ func (s BaseScenario) GetPreemptor() podgroup_info.PodGroupInfo {`
`180`	`180`	`}`
`181`	`181`
`182`	`182`	`func (s BaseScenario) GetVictims() map[common_info.PodGroupID]api.VictimInfo {`
	`183`	`+ for _, victim := range s.victims {`
	`184`	`+ for i, task := range victim.Tasks {`
	`185`	`+ ogTask := s.getJobForTask(task).PodInfos[task.UID]`
	`186`	`+ victim.Tasks[i] = ogTask`
	`187`	`+ }`
	`188`	`+ }`
`183`	`189`	`return s.victims`
`184`	`190`	`}`