Red Hat AI 3.4: Eigene Inferenzplattformen statt externer API-Calls

Red Hat stellte auf seinem diesjährigen Summit in Atlanta eine erweiterte Version seiner KI-Plattform vor. Ein besonderer Schwerpunkt des neuen Release 3.4 liegt auf erweiterten Inferenz-Möglichkeiten: Mit Model-as-a-Service und einem KI-Gateway können Plattformteams Modelle leichter bereitstellen, absichern und die Nutzung messen. Das bedeutet, dass die Unternehmen interne Inferenzdienste selbst anbieten können, statt ausschließlich externe Modell-APIs zu konsumieren. Technische Grundlage ist die AI Inference Platform. Sie basiert auf vLLM, einem Open-Source-Server für KI-Inferenz.

Mit AI 3.4 erweitert das Unternehmen auch die Unterstützung der zugrundeliegenden Systeme und Komponenten. Dazu zählen GPU-Beschleunigungen für Nvidia und AMD sowie CPU-basierte Infrastrukturen für kleinere Sprachmodelle. Für den Betrieb größerer Inferenzumgebungen erweitert Red Hat das Framework llm-d. Es ergänzt Funktionen wie Request-Priorisierung und Batch-Inferenz. Speculative Decoding soll die Antwortgenerierung beschleunigen und dadurch helfen, Inferenzkosten zu senken.

„Viele Unternehmen wollen weg vom Token-Konsum und hin zum Betreiber einer eigenen Inferenzplattform“, sagt Joe Fernandes, Vice President AI Business bei Red Hat. „Gerade bei größeren Lasten oder souveränen Umgebungen kann der Betrieb eigener Inferenzdienste wirtschaftlich und regulatorisch sinnvoll sein.“

Die neue Version verfügt über Funktionen für Identität, Autorisierung und Lifecycle-Management von KI-Agenten. Hinzu kommen Tracing und Observability, um die Aktivitäten von Agenten transparenter zu machen. Ein kuratierter MCP-Server-Katalog (Model Context Protocol) und ein MCP-Gateway sollen die kontrollierte Anbindung von Tools, Services und Datenquellen erleichtern. Neu ist auch ein Evaluation-Hub als gemeinsame Kontrollschicht für Evaluierungsframeworks, Experiment Tracking, AutoRAG und AutoML. Für Prompts bringt Red Hat ein integriertes Prompt-Management mit Prompt Lab und Registry auf den Markt. MLflow wird mit AI 3.4 allgemein verfügbar und dient unter anderem als Grundlage für das Prompt Management, Evaluationen und Agent Tracing.

Beim Thema Sicherheit verweist Red Hat auf sein automatisiertes Red-Teaming. Diese Funktion basiert auf der Übernahme von Chatterbox Labs und soll Modelle und Agenten vor dem Produktiveinsatz automatisch auf Risiken testen. Damit adressiert Red Hat eine der zentralen Schwachstellen agentischer KI: Die Agenten sind nur dann sinnvoll, wenn deren Zugriff, Verhalten und Ergebnis auch nachprüfbar sind.

Parallel baut Red Hat die Zusammenarbeit mit Nvidia deutlich aus. Die Red Hat AI Factory with Nvidia kombiniert Red Hat AI Enterprise mit Nvidia AI Enterprise und soll Unternehmen beim Aufbau produktiver KI-Infrastrukturen unterstützen. Red Hat verweist dabei auf den Support für Nvidias Blackwell-Generation sowie auf eine Day-Zero-Unterstützung für die kommende Vera-Rubin-Architektur. Außerdem beteiligt sich Red Hat an OpenShell, einem Nvidia-Projekt für sichere Ausführungsumgebungen und Sandbox-Funktionen für KI-Agenten. Nach Angaben von Red Hat sind für die AI Factory mehrere Partner eingebunden, darunter Cisco, Dell Technologies, Lenovo, Supermicro, TD SYNNEX und WWT. Kunden sollen darüber validierte Systeme aus Hardware, Software und Services für produktive KI-Umgebungen erhalten.

Fazit: Red Hat fokussiert sich klar auf die Betriebsseite von KI. Die Plattform zielt weniger auf das Vortraining großer Basismodelle als auf Inferenz, Modellanpassung, RAG, Agentenbetrieb und Governance in hybriden Umgebungen. Fernandes sagt dazu: „Das Training großer generativer Modelle ist im klassischen Enterprise-IT-Markt voraussichtlich nicht der zentrale Anwendungsfall.“ Wichtiger sei für ihn die kontrollierte Bereitstellung, Optimierung und Verwaltung bestehender Modelle und Agenten. Das passt zu Red Hats klassischer Stärke: Infrastruktur, OpenShift, Kubernetes, Hybrid Cloud und offene Schnittstellen.

Red Hat AI 3.4: Eigene Inferenzplattformen statt externer API-Calls

Red Hats neue Version der AI-Plattform bietet Model-as-a-Service, umfangreiche Agentenverwaltung und eine engere Nvidia-Anbindung.