Add leaderWorkerSet support - v0.6 (#309)

davidLif · singh1203 · web-flow · commit 4e3ebfd93de1 · 2025-07-07T19:19:27.000+03:00
* Added LWS plugin for LeaderWorkerSet integration (#267) * feat: (GH:#124)add LWS plugin for LeaderWorkerSet support Signed-off-by: Saurabh Kumar Singh <singh1203.ss@gmail.com> Co-authored-by: davidLif <davidshani12@gmail.com> * Add new type of workload to podgrouper exceptions - DistributedInferenceWorkload (#303) --------- Signed-off-by: Saurabh Kumar Singh <singh1203.ss@gmail.com> Co-authored-by: Saurabh Singh <singh1203.ss@gmail.com>
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -6,6 +6,10 @@ The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/).
 
 ## [Unreleased]
 
+## [v0.6.7] - 2025-07-07
+### Added
+- Added LeaderWorkerSet support in the podGrouper. Each replica will be given a separate podGroup.
+
 ## [v0.6.6] - 2025-07-06
 
 ### Fixes
diff --git a/deployments/kai-scheduler/templates/rbac/podgrouper.yaml b/deployments/kai-scheduler/templates/rbac/podgrouper.yaml
@@ -166,6 +166,22 @@ rules:
   - create
   - patch
   - update
+- apiGroups:
+  - leaderworkerset.x-k8s.io
+  resources:
+  - leaderworkersets
+  verbs:
+  - get
+  - list
+  - watch
+- apiGroups:
+  - leaderworkerset.x-k8s.io
+  resources:
+  - leaderworkersets/finalizers
+  verbs:
+  - create
+  - patch
+  - update
 - apiGroups:
   - machinelearning.seldon.io
   resources:
@@ -205,6 +221,7 @@ rules:
 - apiGroups:
   - run.ai
   resources:
+  - distributedinferenceworkloads
   - distributedworkloads
   - inferenceworkloads
   - interactiveworkloads
diff --git a/go.mod b/go.mod
@@ -63,6 +63,7 @@ require (
 	knative.dev/serving v0.44.0
 	sigs.k8s.io/controller-runtime v0.20.0
 	sigs.k8s.io/karpenter v1.2.0
+	sigs.k8s.io/lws v0.5.1
 )
 
 require (
diff --git a/go.sum b/go.sum
@@ -602,6 +602,8 @@ sigs.k8s.io/json v0.0.0-20241014173422-cfa47c3a1cc8 h1:gBQPwqORJ8d8/YNZWEjoZs7np
 sigs.k8s.io/json v0.0.0-20241014173422-cfa47c3a1cc8/go.mod h1:mdzfpAEoE6DHQEN0uh9ZbOCuHbLK5wOm7dK4ctXE9Tg=
 sigs.k8s.io/karpenter v1.2.0 h1:y1zyFGzDLiT5OHpG8Jvj4JKKe/iXmJDYeejs8k8OznM=
 sigs.k8s.io/karpenter v1.2.0/go.mod h1:646txj32arNTy+K4gySCqWSljYrEdemAdYoBMQmkS7o=
+sigs.k8s.io/lws v0.5.1 h1:eaeMNkP0manRluQZLN32atoULaGrzP611gSLdFaHZs4=
+sigs.k8s.io/lws v0.5.1/go.mod h1:qprXSTTFnfmPZY3V3sUfk6ZPmAodsdoKS8XVElJ9kN0=
 sigs.k8s.io/structured-merge-diff/v4 v4.5.0 h1:nbCitCK2hfnhyiKo6uf2HxUPTCodY6Qaf85SbDIaMBk=
 sigs.k8s.io/structured-merge-diff/v4 v4.5.0/go.mod h1:N8f93tFZh9U6vpxwRArLiikrE5/2tiu1w1AGfACIGE4=
 sigs.k8s.io/yaml v1.4.0 h1:Mk1wCc2gy/F0THH0TAp1QYyJNzRm2KCLy3o5ASXVI5E=
diff --git a/hack/run-e2e-kind.sh b/hack/run-e2e-kind.sh
@@ -55,6 +55,7 @@ if [ "$TEST_THIRD_PARTY_INTEGRATIONS" = "true" ]; then
     ${REPO_ROOT}/hack/third_party_integrations/deploy_ray.sh
     ${REPO_ROOT}/hack/third_party_integrations/deploy_kubeflow.sh
     ${REPO_ROOT}/hack/third_party_integrations/deploy_knative.sh
+    ${REPO_ROOT}/hack/third_party_integrations/deploy_lws.sh
 fi
 
 if [ "$LOCAL_IMAGES_BUILD" = "true" ]; then
diff --git a/hack/third_party_integrations/deploy_lws.sh b/hack/third_party_integrations/deploy_lws.sh
@@ -0,0 +1,7 @@
+#!/bin/bash
+# Copyright 2025 NVIDIA CORPORATION
+# SPDX-License-Identifier: Apache-2.0
+set -e
+
+CHART_VERSION=0.6.1
+helm install lws oci://registry.k8s.io/lws/charts/lws --version=$CHART_VERSION --namespace lws-system --create-namespace --wait --timeout 300s
diff --git a/pkg/podgrouper/podgrouper/hub/hub.go b/pkg/podgrouper/podgrouper/hub/hub.go
@@ -21,6 +21,7 @@ import (
 	pytorchplugin "github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/kubeflow/pytorch"
 	tensorflowlugin "github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/kubeflow/tensorflow"
 	xgboostplugin "github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/kubeflow/xgboost"
+	leader_worker_set "github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/leaderworkerset"
 	"github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/podjob"
 	"github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/ray"
 	"github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/runaijob"
@@ -30,12 +31,13 @@ import (
 )
 
 const (
-	apiGroupArgo            = "argoproj.io"
-	apiGroupRunai           = "run.ai"
-	kindTrainingWorkload    = "TrainingWorkload"
-	kindInteractiveWorkload = "InteractiveWorkload"
-	kindDistributedWorkload = "DistributedWorkload"
-	kindInferenceWorkload   = "InferenceWorkload"
+	apiGroupArgo                     = "argoproj.io"
+	apiGroupRunai                    = "run.ai"
+	kindTrainingWorkload             = "TrainingWorkload"
+	kindInteractiveWorkload          = "InteractiveWorkload"
+	kindDistributedWorkload          = "DistributedWorkload"
+	kindInferenceWorkload            = "InferenceWorkload"
+	kindDistributedInferenceWorkload = "DistributedInferenceWorkload"
 )
 
 // +kubebuilder:rbac:groups=apps,resources=replicasets;statefulsets,verbs=get;list;watch
@@ -50,7 +52,7 @@ const (
 // +kubebuilder:rbac:groups=argoproj.io,resources=workflows/finalizers,verbs=patch;update;create
 // +kubebuilder:rbac:groups=tekton.dev,resources=pipelineruns;taskruns,verbs=get;list;watch
 // +kubebuilder:rbac:groups=tekton.dev,resources=pipelineruns/finalizers;taskruns/finalizers,verbs=patch;update;create
-// +kubebuilder:rbac:groups=run.ai,resources=trainingworkloads;interactiveworkloads;distributedworkloads;inferenceworkloads,verbs=get;list;watch
+// +kubebuilder:rbac:groups=run.ai,resources=trainingworkloads;interactiveworkloads;distributedworkloads;inferenceworkloads;distributedinferenceworkloads,verbs=get;list;watch
 
 type PluginsHub struct {
 	defaultPlugin *defaultgrouper.DefaultGrouper
@@ -238,6 +240,11 @@ func NewPluginsHub(kubeClient client.Client, searchForLegacyPodGroups,
 			Version: "v1",
 			Kind:    "SPOTRequest",
 		}: spotrequest.NewSpotRequestGrouper(defaultGrouper),
+		{
+			Group:   "leaderworkerset.x-k8s.io",
+			Version: "v1",
+			Kind:    "LeaderWorkerSet",
+		}: leader_worker_set.NewLwsGrouper(defaultGrouper),
 	}
 
 	skipTopOwnerGrouper := skiptopowner.NewSkipTopOwnerGrouper(kubeClient, defaultGrouper, table)
@@ -247,7 +254,13 @@ func NewPluginsHub(kubeClient client.Client, searchForLegacyPodGroups,
 		Kind:    "Workflow",
 	}] = skipTopOwnerGrouper
 
-	for _, kind := range []string{kindInferenceWorkload, kindTrainingWorkload, kindDistributedWorkload, kindInteractiveWorkload} {
+	for _, kind := range []string{
+		kindInferenceWorkload,
+		kindTrainingWorkload,
+		kindDistributedWorkload,
+		kindInteractiveWorkload,
+		kindDistributedInferenceWorkload,
+	} {
 		table[metav1.GroupVersionKind{
 			Group:   apiGroupRunai,
 			Version: "*",
diff --git a/pkg/podgrouper/podgrouper/plugins/leaderworkerset/lws_grouper.go b/pkg/podgrouper/podgrouper/plugins/leaderworkerset/lws_grouper.go
@@ -0,0 +1,136 @@
+// Copyright 2025 NVIDIA CORPORATION
+// SPDX-License-Identifier: Apache-2.0
+
+package leader_worker_set
+
+import (
+	"fmt"
+	"strconv"
+
+	v1 "k8s.io/api/core/v1"
+	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
+	"k8s.io/apimachinery/pkg/apis/meta/v1/unstructured"
+
+	"github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgroup"
+	"github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/defaultgrouper"
+)
+
+const (
+	startupPolicyLeaderReady   = "LeaderReady"
+	startupPolicyLeaderCreated = "LeaderCreated"
+
+	// LWS annotation and label keys
+	lwsSizeAnnotation   = "leaderworkerset.sigs.k8s.io/size"
+	lwsGroupIndexLabel  = "leaderworkerset.sigs.k8s.io/group-index"
+	lwsWorkerIndexLabel = "leaderworkerset.sigs.k8s.io/worker-index"
+)
+
+type LwsGrouper struct {
+	*defaultgrouper.DefaultGrouper
+}
+
+func NewLwsGrouper(defaultGrouper *defaultgrouper.DefaultGrouper) *LwsGrouper {
+	return &LwsGrouper{
+		DefaultGrouper: defaultGrouper,
+	}
+}
+
+func (lwsGrouper *LwsGrouper) Name() string {
+	return "LWS Grouper"
+}
+
+// +kubebuilder:rbac:groups=leaderworkerset.x-k8s.io,resources=leaderworkersets,verbs=get;list;watch
+// +kubebuilder:rbac:groups=leaderworkerset.x-k8s.io,resources=leaderworkersets/finalizers,verbs=patch;update;create
+
+func (lwsGrouper *LwsGrouper) GetPodGroupMetadata(
+	lwsJob *unstructured.Unstructured, pod *v1.Pod, _ ...*metav1.PartialObjectMetadata,
+) (*podgroup.Metadata, error) {
+	podGroupMetadata, err := lwsGrouper.DefaultGrouper.GetPodGroupMetadata(lwsJob, pod)
+	if err != nil {
+		return nil, err
+	}
+
+	groupSize, err := lwsGrouper.getLwsGroupSize(lwsJob)
+	if err != nil {
+		return nil, err
+	}
+
+	startupPolicy, err := lwsGrouper.getStartupPolicy(lwsJob)
+	if err != nil {
+		return nil, err
+	}
+
+	// Initialize podGroupMetadata with the group size
+	switch startupPolicy {
+	case startupPolicyLeaderReady:
+		if err := handleLeaderReadyPolicy(pod, podGroupMetadata, groupSize); err != nil {
+			return nil, fmt.Errorf("error handling leader ready policy: %w", err)
+		}
+	case startupPolicyLeaderCreated:
+		podGroupMetadata.MinAvailable = groupSize
+	default:
+		return nil, fmt.Errorf("unknown startupPolicy: %s", startupPolicy)
+	}
+
+	if groupIndexStr, ok := pod.Labels[lwsGroupIndexLabel]; ok {
+		if groupIndex, err := strconv.Atoi(groupIndexStr); err == nil {
+			podGroupMetadata.Name = fmt.Sprintf("%s-group-%d", podGroupMetadata.Name, groupIndex)
+		}
+	}
+
+	return podGroupMetadata, nil
+}
+
+func (lwsGrouper *LwsGrouper) getLwsGroupSize(lwsJob *unstructured.Unstructured) (int32, error) {
+	size, found, err := unstructured.NestedInt64(lwsJob.Object, "spec", "leaderWorkerTemplate", "size")
+	if err != nil {
+		return 0, fmt.Errorf("failed to get leaderWorkerTemplate.size from LWS %s/%s with error: %w",
+			lwsJob.GetNamespace(), lwsJob.GetName(), err)
+	}
+	if !found {
+		return 0, fmt.Errorf("leaderWorkerTemplate.size not found in LWS %s/%s", lwsJob.GetNamespace(), lwsJob.GetName())
+	}
+	if size <= 0 {
+		return 0, fmt.Errorf("invalid leaderWorkerTemplate.size %d in LWS %s/%s", size, lwsJob.GetNamespace(), lwsJob.GetName())
+	}
+	return int32(size), nil
+}
+
+// getStartupPolicy extracts the startup policy from the LWS object
+func (lwsGrouper *LwsGrouper) getStartupPolicy(lwsJob *unstructured.Unstructured) (string, error) {
+	policy, found, err := unstructured.NestedString(lwsJob.Object, "spec", "startupPolicy")
+	if err != nil {
+		return "", fmt.Errorf("failed to get startupPolicy from LWS %s/%s: %w",
+			lwsJob.GetNamespace(), lwsJob.GetName(), err)
+	}
+	if !found {
+		// Default to LeaderCreated if not specified
+		return startupPolicyLeaderCreated, nil
+	}
+	return policy, nil
+}
+
+func handleLeaderReadyPolicy(pod *v1.Pod, podGroupMetadata *podgroup.Metadata, fallbackSize int32) error {
+	groupSize := fallbackSize
+
+	// Check for the size annotation on the pod
+	if sizeStr, ok := pod.Annotations[lwsSizeAnnotation]; ok {
+		if parsed, err := strconv.Atoi(sizeStr); err == nil {
+			groupSize = int32(parsed)
+		}
+	}
+
+	workerIndex, hasWorkerIndex := pod.Labels[lwsWorkerIndexLabel]
+	isLeader := hasWorkerIndex && workerIndex == "0"
+	isScheduled := pod.Spec.NodeName != ""
+
+	if isLeader && !isScheduled {
+		// Leader pod not yet scheduled, only need leader to be available
+		podGroupMetadata.MinAvailable = 1
+	} else {
+		// Either worker pod or leader is already scheduled
+		podGroupMetadata.MinAvailable = groupSize
+	}
+
+	return nil
+}
diff --git a/pkg/podgrouper/podgrouper/plugins/leaderworkerset/lws_grouper_test.go b/pkg/podgrouper/podgrouper/plugins/leaderworkerset/lws_grouper_test.go
@@ -0,0 +1,116 @@
+// Copyright 2025 NVIDIA CORPORATION
+// SPDX-License-Identifier: Apache-2.0
+
+package leader_worker_set
+
+import (
+	"testing"
+
+	"github.com/NVIDIA/KAI-scheduler/pkg/podgrouper/podgrouper/plugins/defaultgrouper"
+	"github.com/stretchr/testify/assert"
+	v1 "k8s.io/api/core/v1"
+	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
+	"k8s.io/apimachinery/pkg/apis/meta/v1/unstructured"
+)
+
+func baseOwner(name string, startupPolicy string, replicas int64) *unstructured.Unstructured {
+	return &unstructured.Unstructured{
+		Object: map[string]interface{}{
+			"kind":       "LeaderWorkerSet",
+			"apiVersion": "leaderworkerset.x-k8s.io/v1",
+			"metadata": map[string]interface{}{
+				"name":      name,
+				"namespace": "default",
+				"uid":       name + "-uid",
+			},
+			"spec": map[string]interface{}{
+				"startupPolicy": startupPolicy,
+				"leaderWorkerTemplate": map[string]interface{}{
+					"size": replicas,
+				},
+			},
+		},
+	}
+}
+
+func TestGetPodGroupMetadata_LeaderCreated(t *testing.T) {
+	owner := baseOwner("lws-test", "LeaderCreated", 3)
+
+	pod := &v1.Pod{
+		ObjectMeta: metav1.ObjectMeta{
+			Labels: map[string]string{},
+		},
+	}
+
+	lwsGrouper := NewLwsGrouper(defaultgrouper.NewDefaultGrouper("", ""))
+	podGroupMetadata, err := lwsGrouper.GetPodGroupMetadata(owner, pod)
+
+	assert.Nil(t, err)
+	assert.Equal(t, int32(3), podGroupMetadata.MinAvailable)
+	assert.Equal(t, "LeaderWorkerSet", podGroupMetadata.Owner.Kind)
+	assert.Equal(t, "leaderworkerset.x-k8s.io/v1", podGroupMetadata.Owner.APIVersion)
+	assert.Equal(t, "lws-test", podGroupMetadata.Owner.Name)
+	assert.Equal(t, "lws-test-uid", string(podGroupMetadata.Owner.UID))
+}
+
+func TestGetPodGroupMetadata_LeaderReady_LeaderPod(t *testing.T) {
+	owner := baseOwner("lws-ready", "LeaderReady", 5)
+
+	pod := &v1.Pod{
+		ObjectMeta: metav1.ObjectMeta{
+			Annotations: map[string]string{},
+			Labels:      map[string]string{},
+		},
+		Spec: v1.PodSpec{
+			NodeName: "", // not scheduled => simulate leader
+		},
+	}
+
+	lwsGrouper := NewLwsGrouper(defaultgrouper.NewDefaultGrouper("", ""))
+	podGroupMetadata, err := lwsGrouper.GetPodGroupMetadata(owner, pod)
+
+	assert.Nil(t, err)
+	assert.Equal(t, int32(5), podGroupMetadata.MinAvailable)
+}
+
+func TestGetPodGroupMetadata_LeaderReady_WorkerPod(t *testing.T) {
+	owner := baseOwner("lws-ready", "LeaderReady", 5)
+
+	pod := &v1.Pod{
+		ObjectMeta: metav1.ObjectMeta{
+			Annotations: map[string]string{
+				"leaderworkerset.sigs.k8s.io/size": "5",
+			},
+			Labels: map[string]string{
+				"leaderworkerset.sigs.k8s.io/group-index": "0",
+			},
+		},
+		Spec: v1.PodSpec{
+			NodeName: "worker-node", // scheduled => simulate worker
+		},
+	}
+
+	lwsGrouper := NewLwsGrouper(defaultgrouper.NewDefaultGrouper("", ""))
+	podGroupMetadata, err := lwsGrouper.GetPodGroupMetadata(owner, pod)
+
+	assert.Nil(t, err)
+	assert.Equal(t, int32(5), podGroupMetadata.MinAvailable)
+}
+
+func TestGetPodGroupMetadata_GroupIndex_Label(t *testing.T) {
+	owner := baseOwner("lws-grouped", "LeaderCreated", 2)
+
+	pod := &v1.Pod{
+		ObjectMeta: metav1.ObjectMeta{
+			Labels: map[string]string{
+				"leaderworkerset.sigs.k8s.io/group-index": "1",
+			},
+		},
+	}
+
+	lwsGrouper := NewLwsGrouper(defaultgrouper.NewDefaultGrouper("", ""))
+	podGroupMetadata, err := lwsGrouper.GetPodGroupMetadata(owner, pod)
+
+	assert.Nil(t, err)
+	assert.Contains(t, podGroupMetadata.Name, "-group-1")
+}
diff --git a/test/e2e/modules/context/connectivity.go b/test/e2e/modules/context/connectivity.go
diff --git a/test/e2e/suites/integrations/third_party/leader_worker_set/leader_worker_set_suite_test.go b/test/e2e/suites/integrations/third_party/leader_worker_set/leader_worker_set_suite_test.go
diff --git a/test/e2e/suites/integrations/third_party/leader_worker_set/leader_worker_set_test.go b/test/e2e/suites/integrations/third_party/leader_worker_set/leader_worker_set_test.go

Original file line number	Diff line number	Diff line change
`@@ -63,6 +63,7 @@ require (`
`63`	`63`	`knative.dev/serving v0.44.0`
`64`	`64`	`sigs.k8s.io/controller-runtime v0.20.0`
`65`	`65`	`sigs.k8s.io/karpenter v1.2.0`
	`66`	`+ sigs.k8s.io/lws v0.5.1`
`66`	`67`	`)`
`67`	`68`
`68`	`69`	`require (`