Heise 30.05.2026
10:43 Uhr

Googles KI-Chip-Boss: „Wir sind uns der Inflation natürlich bewusst“


Amin Vahdat leitet das KI- und Infrastrukturteam bei Google. Im Interview erklärt er die TPU-Strategie – und wie viel Leistung KI-Agenten wirklich brauchen.

Googles KI-Chip-Boss: „Wir sind uns der Inflation natürlich bewusst“

Amin Vahdat trägt den offiziellen Titel Chief Technologist für KI und Infrastruktur bei Google. Damit ist er nicht nur für den Compute-Bereich zuständig, der die Cloud-KI-Infrastruktur einschließt. Er kümmert sich auch um das Design von Googles internem und externem Netzwerk, die zahlreichen Rechenzentren und die dort verwendeten Plattformarchitekturen – von den eingekauften GPUs und anderen Beschleunigern über die Server bis zu Googles hauseigenen KI-Chips.

Die Tensor Processing Units (TPUs) haben in den vergangenen zehn Jahren acht Generationen durchlaufen. Die neueste Generation besteht aus zwei Varianten und wurde im April vorgestellt. Im Interview mit heise online spricht der promovierte Informatiker Vahdat, der seit 16 Jahren bei Google arbeitet und davor unter anderem Professor an der University of California in San Diego war, über Googles KI-Hardware.

Für das Training von Frontier-Modellen erreicht die TPU 8t jetzt 121 ExaFlops pro Pod und hält einen Goodput von 97 Prozent aufrecht, sodass die Rechenleistung direkt ins aktive Lernen fließen kann. Auf der Serving-Seite verdreifacht die TPU 8i den On-Chip-SRAM auf 384 MB, um den massiven Working-Memory-Bedarf von Agenten direkt auf dem Silizium vorzuhalten. Mit unserer neuen Collectives Acceleration Engine platzieren wir die richtige Menge an Rechenleistung direkt im Netzwerkpfad. Dabei senken wir die interne Latenz um bis zu Faktor fünf und erzielen sehr geringe Antwortzeiten bei komplexem Reasoning.

Solche Verbesserungen zeigen, wie wir das Hochskalieren von KI für Unternehmen durch integrierte Lösungen wirtschaftlich machen können. Das liefert für alle Workloads von vorne bis hinten Verbesserungen.

Wir haben die Architektur daher in zwei spezialisierte Systeme aufgeteilt, weil wir gesehen haben, dass die Workloads für das Training riesiger Modelle und den Betrieb von Echtzeit-KI-Agenten auseinanderlaufen und jeweils angepasste Technologien benötigen. Das „t" in TPU 8t steht, wie Sie bereits erwähnt haben, für Training, das eine massive Skalierung und hohen Durchsatz für die Entwicklung von Frontier-Modellen erfordert. Das „i" in TPU 8i steht für Inferenz, die schnelle Verarbeitung mit niedriger Latenz für komplexe Reasoning-Aufgaben verlangt. Dieser Ansatz gibt uns und Kunden die Flexibilität, genau die Hardware auszuwählen, die für ihre spezifischen Workloads optimal ist.

Mit TPU 8i und TPU 8t haben wir die Spezialisierung konsequent weitergetrieben. Auch wenn die TPU 8t als sehr guter Inferenz-Chip dienen könnte, konzentrierten sich alle unsere Optimierungen auf Leistungseffizienz und Skalierung für das Training. Ebenso kann die TPU 8i eigentlich auch als sehr guter Trainings-Chip fungieren, aber alle unsere architektonischen Innovationen zielten auf Inferenz-Latenzoptimierungen. TPU 8i und 8t zeigen, wie wir das grundlegende Compute-Fabric so umbauen, dass Energie- und Skalierungsherausforderungen gelöst werden, an denen generische Infrastruktur zunehmend scheitert.