implement list gpus endpoint

SecretiveShell · SecretiveShell · commit 14101c57404e · 2025-04-06T20:59:01.000+01:00
diff --git a/src/inferadmin/routes/infra/gpus/__init__.py b/src/inferadmin/routes/infra/gpus/__init__.py
@@ -1,9 +1,46 @@
-from fastapi import APIRouter
-from .models import GetGpusResponse
-router = APIRouter(
-    prefix='/gpus'
-)
+import shutil
+import subprocess
+from fastapi import APIRouter, HTTPException
+from pydantic import ValidationError
+from .models import GetGpusResponse, GpuState
 
-@router.get('/')
+router = APIRouter(prefix="/gpus")
+
+
+@router.get("/")
 async def get_gpus() -> GetGpusResponse:
-    pass
+    """Get GPU information"""
+
+    nvidia_smi = shutil.which("nvidia-smi")
+    if nvidia_smi is None:
+        raise HTTPException(status_code=500, detail="nvidia-smi not found")
+
+    gpus: list[GpuState] = []
+
+    try:
+        output = subprocess.check_output(
+            [nvidia_smi, "--query-gpu=index,utilization.gpu,power.draw,memory.total,memory.used", "--format=csv,noheader,nounits"],
+            encoding="utf-8",
+        )
+    except subprocess.CalledProcessError as e:
+        raise HTTPException(status_code=500, detail=f"nvidia-smi failed: {e.output}")
+    
+    for line in output.splitlines():
+        if not line or line.startswith("#"):
+            continue
+
+        try:
+            index, utilization, power, total, used = line.split(",")
+            gpus.append(
+                GpuState(
+                    id=index,
+                    total_vram=float(total),
+                    used_vram=float(used),
+                    utilization=float(utilization),
+                    power_consumption=float(power),
+                )
+            )
+        except (ValidationError, ValueError):
+            continue
+
+    return GetGpusResponse(gpus=gpus)