docker · p1-0tr · Jun 5, 2025 · xenoscopic · Jun 6, 2025 · doringeman
diff --git a/pkg/inference/scheduling/loader.go b/pkg/inference/scheduling/loader.go
@@ -162,7 +162,13 @@
 	for r, slot := range l.runners {
 		unused := l.references[slot] == 0
 		idle := unused && now.Sub(l.timestamps[slot]) > runnerIdleTimeout
-		if unused && (!idleOnly || idle) {
+		defunct := false
+		select {
+		case <-l.slots[slot].done:
+			defunct = true
+		default:
+		}
+		if unused && (!idleOnly || idle || defunct) {
 			l.log.Infof("Evicting %s backend runner with model %s in %s mode",
 				r.backend, r.model, r.mode,
 			)
@@ -372,9 +378,17 @@
 		// See if we can satisfy the request with an existing runner.
 		existing, ok := l.runners[runnerKey{backendName, model, mode}]
 		if ok {
-			l.references[existing] += 1
-			l.timestamps[existing] = time.Time{}
-			return l.slots[existing], nil
+			select {
+			case <-l.slots[existing].done:
+				l.log.Warnf("Will reload defunct %s runner for %s. Runner error: %s.", backendName, model,
@@ -12,2 +12,3 @@
 	"github.com/docker/model-runner/pkg/logging"
+	"strings"
 )
@@ -382,3 +383,5 @@
 			case <-l.slots[existing].done:
-				l.log.Warnf("Will reload defunct %s runner for %s. Runner error: %s.", backendName, model,
+				safeModel := strings.ReplaceAll(model, "\n", "")
+				safeModel = strings.ReplaceAll(safeModel, "\r", "")
+				l.log.Warnf("Will reload defunct %s runner for %s. Runner error: %s.", backendName, safeModel,
 					l.slots[existing].err)
@@ -12,2 +12,3 @@
 	"github.com/docker/model-runner/pkg/logging"
+	"strings"
 )
@@ -382,3 +383,5 @@
 			case <-l.slots[existing].done:
-				l.log.Warnf("Will reload defunct %s runner for %s. Runner error: %s.", backendName, model,
+				safeModel := strings.ReplaceAll(model, "\n", "")
+				safeModel = strings.ReplaceAll(safeModel, "\r", "")
+				l.log.Warnf("Will reload defunct %s runner for %s. Runner error: %s.", backendName, safeModel,
 					l.slots[existing].err)
+					l.slots[existing].err)
+				// Evict the defunct runner if it is not in use by anyone else.
+				l.evictRunner(backendName, model)
-				l.evictRunner(backendName, model)
+				// Reset the reference count to zero so that we can evict the runner and then start a new one.
+				l.references[existing] = 0
+				l.evictRunner(backendName, model)
-				l.evictRunner(backendName, model)
+				// Reset the reference count to zero so that we can evict the runner and then start a new one.
+				l.references[existing] = 0
+				l.evictRunner(backendName, model)
+			default:
+				l.references[existing] += 1
+				l.timestamps[existing] = time.Time{}
+				return l.slots[existing], nil
+			}
 		}
 
 		// If there's not sufficient memory or all slots are full, then try