KI-Beschleuniger 📖 Wikipedia

Der Myriad X Chip (MA2485) von Movidius (gegründet 2005 und 2016 von Intel übernommen) war ein eigenständiger und für Deep Learning (DL) optimierter IC-Baustein – ein neuromorpher Prozessor (NPU). Dieser Chip war in dem Neural Compute Stick untergebracht, welcher von Intel (aufgrund der rapiden Veränderungen in dem Umfeld) im Jahr 2022^[1] eingestellt wurde. Dies ist nur ein Beispiel für einen sehr kleinen „KI-Beschleuniger“. Moderne System sind hardware-architektonisch viel komplexer aufgebaut. (Foto von 2023)

„KI-Beschleuniger“ (englisch AI accelerator) sind elektronische Zusatzeinrichtungen (Erweiterungen der Computerhardware) und entsprechende Software-Programmbibliotheken zum rascheren, effizienteren (parallelen) Ausführen von Rechenaufgaben moderner Algorithmen bzw. Computerprogramme aus dem Bereich der künstlichen Intelligenz bzw. der künstlichen neuronalen Netze (KNN).^[2] Gemeint sind damit Programme (KI-Modelle, Frameworks usw.) aus dem Bereich des Deep Learning (DL) bzw. Maschinelles Lernen (ML).

Für diese eigens designten IC-Bausteine oder Computersysteme sind auch die Bezeichnungen Neural Processor Unit (NPU) oder Deep Learning Processor (DLP) bekannt. Ein weiterer Begriff ist Vision Processing Unit (VPU). Man spricht in dem Zusammenhang auch von Exascale-Computing, also der nächsten Größenordnung nach dem Peta- (PFLOPS) und Gigaflops-Computing (GFLOPS), d. h. 10¹⁸ FLOPS. Der Bereich des Supercomputing umschließt derartige Rechenleistungen. Supercomputer (und Großrechner) wurden in den letzten Jahrzehnten jedoch nicht primär für KI-Anwendungen entwickelt, sondern für komplexe Probleme aus den Naturwissenschaften, innerhalb Computerphysik und theoretischen Chemie.

Ein kommerzielles Beispiel für einen „KI-Beschleuniger“ ist die Tensor Processing Unit (TPU), welche von Google 2016 vorgestellt wurde. In diesem Zusammenhang ist auch das Software-Framework TensorFlow (TF) zu nennen, das in den letzten Jahren zu einem weit verbreiteten Baustein moderner „KI-Technologie“ geworden ist.

Die „KI-Beschleuniger“ sind in der Regel mit schnellem Halbleiterspeicher und Datenleitungen ausgestattet. Die Gerät sind meist nicht für den Heimanwender verfügbar und befinden sich seit den 2010er Jahren in einer rapiden Forschung und Entwicklungsphase mit einzelnen Produkten am Markt. Die gesamte Entwicklung der Chiptechnologie ist eng verbunden mit der Roadmap der Technologieknoten sowie Big Data und Data Science. Der Export bestimmter Systeme birgt wirtschaftliche und sicherheitskritische Risiken und ist daher teilweise reguliert.

Beschreibung

Bearbeiten

Man unterscheidet bei den „KI-Beschleunigern“ zwischen verschiedenen Geräten oder Systemen, meist in Form von Servern für die Hauptanwendung in Rechenzentren. Außerdem existieren spezielle KI-optimierte Halbleiterbausteine für das Edge Computing (dort: Mikrocontroller mit KI-Koprozessor). Entweder kommen dedizierte KI-optimierte Chips zum Einsatz, oder KI-Koprozessor, oder Rechenbausteine (CPU und/oder GPU) mit KI-Fähigkeiten. Industrielle Zielanwendungen von diesen Systemen sind beispielsweise die Robotik und Autonomes Fahren, oder ganz generell unbesetzte Systeme, welche mittels eines „KI-Beschleuniger“ zu intelligenten Funktionen befähigt werden.

Im Falle von modernen KI-Anwendungen, wie z. B. den großen Sprachmodellen (LLMs), werden dafür als Teil der Forschung und Entwicklung neuartige Chiparchitekturen entworfen. Sie basieren teilweise auf den Grundprinzipien der Grafikprozessoren (GPUs) und sind für maschinelles Lernen u. a. KI-Techniken optimiert. Einer dieser Prozessoren ist z. B. die Artificial Intelligence Unit (AIU) von IBM.^[3] GPUs haben gegenüber den Hauptprozessoren (CPUs) gewissen Eigenschaften, die ihnen eine parallele Berechnung von Fließkommazahlen (FP) ermöglicht, welche bei manchen Algorithmen von Vorteil sein können. Manche dieser KI-Algorithmen können mit kleiner als 32-Bit FP Genauigkeit trainiert und inferenziert werden. Man geht daher zur Optimierung der Modelle („Quantisierung“) und deren Speicheranforderungen zu 16-, 8- und mittlerweile zu kleinen 4-Bit FP Hardware über.^[4]^[5]^[6]

Des Weiteren spielen die modernen Halbleiterspeicher eine herausragende Rolle für „KI-Beschleuniger“ und man geht von schnellen DDR-Bausteinen zu speziellen High Bandwidth Memory (HBM) über. In Einzelprojekten, und als Teil der Forschung und Entwicklung, versucht man, direkt innerhalb eines Speichers (z. B. Memristor) Programme auszuführen. Diese Technik ist auch bekannt als In-Memory Computing (IMC) oder Computing-in-Memory (CIM).^[8]^[9]^[10]^[11]

Entwicklungsgeschichte

Bearbeiten

Die Technik, Koprozessoren neben einem Hauptprozessor (CPU) für spezialisierte Aufgaben bereitzustellen, ist bereits seit Jahrzehnten Teil der Rechnerarchitekturen. Zu den ursprünglichen CPU-Koprozessoren zählen z. B. die Gleitkommaeinheit (FPU)—seit Ende der 1970er Jahre oder Multi Media Extension (MMX)—seit Ende der 1990er Jahre am Markt. Beide sind heute noch Teil jeder CPU. In diesen Anfängen liegt auch die getrennte Entwicklung der Grafikprozessoren (GPU).^[12] FPU und MMX-CPU-Befehlssätze sind jedoch keine „KI-Beschleuniger“.

Erstmals wurden 1977 „Erweiterungskarten“ zum Apple-II-PC eingeführt. Viele Jahre wurden auch Computer-Zusatzkarten mit spezialisierten Chips als Erweiterung von PCs angeboten, z. B. als Sound- und Grafikkarten. Zur Texterkennung (OCR) mittels Convolutional Neural Networks (CNN) wurden vereinzelt digitale Signalprozessoren (DSP) als Koprozessoren verwendet.^[13] Ab 1995 wurden auch Field Programmable Gate Arrays (FPGAs) für das Training und die Klassierung künstlicher neuronaler Netze (KNN) implementiert.^[14] Als Alternative zu rekonfigurierbaren FPGAs, die nicht immer die volle Leistung eines Halbleitersystems ausnutzen können, werden zahlreiche anwendungsspezifische ICs (ASICs) entwickelt. Dazu zählen im Prinzip alle KI-optimierten Bausteine, sofern sie ausschließlich für diesen Zweck entworfen wurden.

Im Jahr 2015 stellte Qualcomm einen KI-optimierten System-on-a-Chip (SoC) und integrierten Grafikprozessor (GPU) für Smartphones vor.^[15] Dies war ein Novum, da die Geräte aufgrund ihrer mobilen Anwendung und der damit verbundenen Lithium-Ionen-Technologie (LIB) nur einen geringen Spielraum bei der Leistungsaufnahme erlauben, wobei hier bereits optimierte RISC-Architekturen eine übergeordnete Rolle spielen. Genauer läutete die moderne ARM-Architektur das Zeitalter der mobilen Geräte (Smartphones) ein.

Intel vermarktet ab 2025 die AMX KI-optimierten CPUs (als Koprozessor oder Befehlssatz der Intel Xeon Prozessorarchitektur), ein integrierter Beschleuniger, der das Training und die Ergebnisse verbessern soll. KI-Aufgaben wie die Verarbeitung von natürlicher Sprache, Empfehlungssysteme und Bilderkennung sollen damit effizienter gelöst werden.^[16]

Taxonomie: KI-Chips, Zusatzkarten und Systeme

Bearbeiten

Seit den 2010er Jahren werden eine Vielzahl neuer Beschleunigersysteme erforscht und entwickelt. Man kann in Chips, Zusatzkarten oder Systeme unterteilen. Eine grobe (unvollständige) Übersicht:^[17]^[18]^[19]

Chips
- Neuromorphe Prozessoren (NPU), also Hardware-Bausteine, die für künstliche neuronale Netze (KNN) designed wurden und eine CPU ersetzten oder begleitend ergänzen. Auch die kommerziellen Bezeichnungen Neural Network Processor (NNP) oder Bionic Neural Engine (BNE)^[20] wurden bekannt. Fachleute zählen zu dieser Kategorie auch die Tensor Processing Unit (TPU) dazu.^[17]
- Zu den Chips zählen außerdem die System-on-a-Chip (SoC)-Systeme, also KI-optimierte Logik (meist Hauptprozessoren, Koprozessoren und Speicher in einem Baustein).
- Computation-in-Memory (CIM)^[21]: KI-optimierte Mikroarchitekturen in Speicherbausteinen, z. B. DRAM; diese Geräte sind noch in Entwicklung oder sogar Erforschung.
- Spezielle CPUs mit KI-optimierten Subprozessoren (Koprozessoren oder Befehlssätze), d. h. spezielle Mikroprozessoren oder Mehrkernprozessoren mit KI-Fähigkeiten.

Zusatzkarten
- Adapter-Karten, die einem Hostrechner (Server oder Mainframe) über den PCIe-Bus KI- bzw. KNN-optimierte Chipkapazitäten anbieten. Auf diesen Karten befinden sich teilweise proprietäre KI-optimierte Einzelchip-Designs. Letztere können sein: FPGAs, ASICs oder GPUs.^[22] Zusatzkarten oder Chipbausteine sind häufig auch Teil von KI-optimierten Servern und Systemen.
Systeme
- Chipsystem werden mittels Chiplet-Technologie oder als Multi-Chip-Module, also als mehrdimensionale Strukturen aufgebaut und auf Mainboards oder Zusatzkarten integriert.^[23]
- Beispiele sind der Nvidia DGX (Deep GPU Xceleration) KI-Supercomputer, beladen mit KI-optimierten CPUs und GPUs. Diese Systeme werden in Rechenzentren oder High-Performance Computing (HPC)-Umgebungen adoptiert. Siehe auch das System Grace Hopper GH200 weiter unten.
- Tileset oder Wafer-Scale Engines (WSE), also KI-optimierte Systeme, welche die Größe eines Wafer einnehmen, z. B. der Tesla Dojo.^[24]^[25]

Alle diese genannten Technologien sind jeweils optimiert für Deep Learning (DL) oder Machine Learning (ML) Probleme und stellen diese optimierten Fähigkeiten mittels Software-Frameworks, wie z. B. Nvidia Cuda, bereit. Zu den bekannten DL/ML-Frameworks gehören Caffe, PyTorch uvm.

Leistungsmetriken

Bearbeiten

Bei den Leistungsdaten der KI-optimierten Hardware werden teilweise die üblichen Leistungsangaben in Floating Point Operations Per Second (FLOPS) veröffentlicht. Dabei handelt es sich nur um die arithmetische Operationen im Integer (INT) oder Fließkomma (FP)-Format. Grundsätzlich werden zum Computerhardware-Benchmarking die folgenden Leistungsparameter von Mikroprozessoren oder Mikrocontrollern vermessen:^[26]

Dhrystone MIPS (DMIPS)
Gleitkommaoperationen pro Sekunde (FLOPS)
Instruktionen per Befehl (IPC)
Instruktionen pro Sekunde (IPS)

Insbesondere die IPS dienen aufgrund stagnierender Taktfrequenzzuwächse in Zyklen (Hz), oder Taktraten der CPU, als wichtiger Benchmarkwert. Dies trifft vor allem auf Mehrkernprozessoren zu. (Siehe auch die Evolution der Rechenleistung der Mikroprozessoren, wobei CPUs nicht gleichzusetzen sind mit GPUs.)

Im Falle von KI-optimierten IC-Bausteinen, z. B Mikrocontrollern (als Chips sind sie den „KI-Beschleuniger“ zuzuordnen), existieren außerdem die Größen bzw. Metriken:

GOPS oder GOP/s – Giga operations per second, und die nächste Größenordnung
TOPS oder TOP/s – Tera/trillion operations per second

Hier stehen die Operations für jede arithmetische oder logische Operation, häufig im Integer- oder Fließkomma (FP)-Format, also z. B. 8-Bit INT/FP, 16-Bit INT/FP usw. Grundlegend sind die Operationen abhängig von der Bit-Größe. Mit anderen Worten: Mit 4-Bit-FP lassen sich höhere Rechengeschwindigkeiten erreichen. Je nach Hersteller wird eine Leistungsangabe in xOPS für verschiedene INT/FP-Kombinationen veröffentlicht.

Kleine Chip-Beschleuniger (KI-Koprozessoren von Mikrocontroller) haben Leistungsangaben von beispielsweise 256 GOPS, gemessen in 8-Bit-MACs/Zyklus bei 2 GHz. Dabei stehen die MAC für Multiply-Accumulate Operationen. Eine MAC-Operation (Multiplikation und folgende Addition) zählt als zwei FLOP-Operationen. Zwei weitere Beispiele für typische Benchmarks:

Nvidia H200 GPU: 4 PetaFLOPS (FP8)^[27] bei bis zu 700 W (TDP)
NXP Ara240 NPU: 40 äquivalente TOPS^[28] bei 6,5 W

Die Rechengeschwindigkeiten für KI-Anwendungen und die Stromaufnahme der Geräte könnten nicht unterschiedlicher sein. Da die Geräte jedoch gänzlich unterschiedliche Spezifikationen haben, sind auch ihre Einsatzgebiete unterschiedlich. Die Messwerte können nicht verglichen oder umgerechnet werden. Bei gleichem Format (z. B. FP8) kann man abschätzen: 1 MAC $\approx$ 2 × FLOP, jedoch können grundsätzlich die Metriken OPS nicht mit den FLOPS verglichen werden, also xOPS $\neq$ xFLOPS.

Aufgrund der Komplexität des Themas hat sich 2018 die MLCommons-Organisation gebildet.^[29] Sie erforscht und versucht eine Vielzahl von Standards zu erarbeiten. Dazu zählen Benchmarks für KI-Algorithmen, Training und Inferenz, für mobile Anwendungen (Smartphone), für eingebettete Anwendungen (Tiny), Sicherheit usw.

Einsatzdomäne: Rechenzentren, Server und Workstations

Bearbeiten

KI-Beschleuniger spielen in Rechenzentren (und auch Cloud Computing) seit den 2020er Jahren eine aufsteigende Rolle, da sie versuchen, die Effizienz und Leistung von KI-Anwendungen zu steigern. Über spezielle Parallelverarbeitungsfunktionen in Koprozessoren oder KI-optimierten Systemen versucht man, Milliarden von Berechnungen gleichzeitig durchzuführen.^[30]^[31] Für das Training von KI-Modellen sind besonders hohe Rechenleistungen erforderlich. Schätzungsweise benötigte das Training des GPT-4-Modells von OpenAI rund 50 GWh Energie (Strom) und kostete etwa 100 Millionen US-Dollar. Dies entspricht dem Stromverbrauch von San Francisco über drei Tage.^[32] Für diese neuen Größenordnungen in der IT-Welt werden seit den 2020er Jahren eigens entwickelte und für KI oder LLMs optimierte Rechenzentren aufgebaut.^[33]^[34]^[35]

Die rechenintensiven KI-Algorithmen (z. B. LLMs bzw. GPTs) werden häufig auf Grafikprozessoren (GPUs) ausgelagert, jedoch geht man im Falle von Rechenzentren zu eigens dafür entwickelten KI-Servern über, wie von OEMs wie Nvidia selbst oder von anderen Zulieferern wie z. B. Supermicro. Als einer der größten GPU-Hersteller weltweit, hat das US-amerikanische Unternehmen Nvidia bereits seit den 2010er Jahren seine Hardwaretechnologie in Richtung des Deep Learnings (DL) ausgerichtet und einige spezialisierte KI-Systeme herausgebracht, z. B. das Grace Hopper GH200 System ab 2023.^[36]^[37]^[38]^[39] Auch hier spielt neben der eigentliche GPU-Einheit der High Bandwidth Memory (HBM) eine entscheidende Rolle.

Der Cloud-Anbieter Amazon Web Services (AWS) bietet einen „KI-Beschleuniger“ namens AWS Trainium an, welcher für das Training großer KI-Modelle wie zur natürlichen Sprachverarbeitung, Computer-Vision und für Empfehlungsmodelle optimiert sind. AWS Trainium ist ein ML-optimierter Computerchip, den AWS für Trainings von über 100 Milliarden Parameter entwickeln hat lassen und in AWS-Rechenzentren zum Einsatz kommt.^[40]

Einsatzdomäne: Endgeräte für Benutzer

Bearbeiten

Die Anforderungen zur Ausführung von KI-Anwendungen unterscheiden sich bei kleinen und mobilen Computern (z. B. Smartphones, Laptops) deutlich von den stationären PCs, Workstations, Servern oder Supercomputern. Daher versucht man, eine Balance zwischen den energieintensiven Anwendungen der KI-Modelle und den begrenzten Rechnerressourcen der Geräte zu finden. Dabei spielen Koprozessoren, moderne CPUs und GPUs, die für KI-Anwendungen optimiert wurden, eine entscheidende Rolle.^[41] Es wird auch versucht, die Anwendungen auf lokalen Ressourcen zu betreiben, ohne die Workloads an Cloud-Server zu verteilen. Dies ist jedoch eher die Ausnahme, da die Leistungs- und Speicheranforderungen großer KI-Modelle die Kapazitäten der Benutzergeräte bisher (Stand 2026) übersteigen.

Einige bekannte KI-optimierte Chips und deren Rechenleistung gemessen in Trillion (10¹²) Operations per Second (TOPS) sind (Stand 2024):^[42]

Apple M4: bis zu 38 TOPS^[43]
AMD Ryzen AI 300: bis zu 50 TOPS^[44]
Intel Core Ultra 200V (Codename: Lunar Lake): bis zu 48 TOPS Gesamt-KI-Leistung, davon 45 TOPS (Intel AI Boost)^[45]
Qualcomm Snapdragon X Elite: bis zu 45 TOPS^[46]
Qualcomm Snapdragon X Plus: bis zu 45 TOPS wie beim Elite-Modell^[46]

Weitere KI-optimierte Chipsätze

Bearbeiten

Spiking Neural Networks (Gepulste neuronale Netze)

Bearbeiten

Neuromorphe KI-Modelle unterscheiden sich von den vorherrschenden künstlichen neuronalen Netzen mit Deep Learning-Struktur. Eine aktive Kopplung zwischen Neuronen wird ähnlich wie im menschlichen Gehirn nur durch elektronische Impulse (englisch spikes) ausgelöst, d. h. der Informationsfluss findet nur bei Eintreten bestimmter Bedingungen statt. Derartige Strukturen werden gepulste neuronale Netze (GNN) genannt. Sie arbeiten ereignisgesteuert. Dies ist einer der Gründe, weshalb das Gehirn einen verhältnismäßig geringen Energieaufwand aufweist ebenso wie neuromorphe Prozessoren (NPU) im Vergleich mit entsprechenden Deep-Learning-Processors.^[47]

Der realisierte, neuromorphe, Chip NorthPole von IBM Research beruht auch auf der Erkenntnis, dass rascher Speicherzugriff ebenso wichtig ist wie Datenverarbeitung. Ein verwandter IBM-Chip TrueNorth^[48] überzeugt durch seine Kennwerte und verhält sich nach außen wie ein aktiver Speicherchip mit interner Verarbeitung.^[49] Diese Chips sind nicht in Serie gefertigt geworden.

Combined Stencil and Tensor Accelerator

Bearbeiten

Im Rahmen der European Processor Initiative (EPI)^[50], eines von der EU und anderen europäischen Ländern geförderten Projekts für High-Performance Computing, wurden neuartige Funktionskombinationen von Deep-Learning- und Stencil-Beschleunigern (STX) entwickelt und in Form integrierter Schaltungen (Chips) realisiert.^[51]

Quantum Neural Network

Bearbeiten

Forschung wird auch in Bezug auf Quantencomputer und KI betrieben. Informationsverarbeitende Geräte somit würde anstatt klassischer Bits die Quantenbits nutzen.^[47]^[52] Die sogenannten Quanten neuronale Netze (QNN) werden erforscht, um bisherige Modelle künstlicher neuronaler Netze (KNN) mit den Vorteilen der Quanteninformation zu kombinieren und so effizientere Algorithmen zu entwickeln.^[53]^[54] Beispielsweise hat das Unternehmen Google im Dezember 2024 einen neuen, leistungsfähigen Quantencomputer vorgestellt, welcher mit den selbst entwickelten Willow-Chips ausgerüstet ist.^[55]

Trivia

Bearbeiten

„Brain Chip“ – Der neuronaler Chip im Kopf des aus der Zukunft stammenden Kampfroboters Terminator T-800.

Siehe auch

Bearbeiten

Humanoide Roboter
Media Control Unit (genauer die Autopilot-Hardware) von Tesla
Neuralink – Mit Hauptbüro im Pioneer Building, San Francisco; auch angemietet worden von OpenAI und angeblich im Besitz von Elon Musk. Seit 2024 ist Neuralink in Delaware, einem Bundesstaat mit steuerlichen Vorteilen, eingetragen. OpenAI hat das Gebäude mittlerweile verlassen.^[56]
Pax Silica

Weblinks

Bearbeiten

Commons: KI-Beschleuniger – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

Bearbeiten

↑ Neural Compute Stick (NCS) 1 wurde schon 2019 gestoppt, der NCS 2 dann 2022.
↑ Was ist ein KI-Beschleuniger? | IBM. In: IBM. 12. Juni 2024, abgerufen am 13. April 2026.
↑ IBM’s new AIU artificial intelligence chip. In: IBM. 9. Februar 2021, abgerufen am 13. April 2026 (amerikanisches Englisch).
↑ Introducing NVFP4 for Efficient and Accurate Low-Precision Inference. In: Nvidia. 24. Juni 2025, abgerufen am 3. April 2026 (amerikanisches Englisch).
↑ Brian Chmiel et al.: FP4 All the Way: Fully Quantized Training of LLMs. In: Arxiv. 10. August 2025, abgerufen am 3. April 2026 (englisch).
↑ Sparsh Mittal: A survey on modeling and improving reliability of DNN algorithms and accelerators. In: Journal of Systems Architecture. Band 104, März 2020, S. 101689, doi:10.1016/j.sysarc.2019.101689 (englisch, elsevier.com [abgerufen am 14. April 2026]).
↑ Dieses System ist nicht Teil der Klasse der Supercomputer, sondern als eine moderne und spezialisierte Motorsteuerung (ECU) zu verstehen. Siehe auch Robotaxis u. dgl.
↑ Synthara ComputeRAM in AI accelerators: An LLM case study. In: Synthara.ai. Abgerufen am 13. April 2026 (amerikanisches Englisch).
↑ S. Ghose et al.: Processing-in-memory: A workload-driven perspective. In: IBM Journal of Research and Development. Band 63, Nr. 6, November 2019, ISSN 0018-8646, S. 3:1–3:19, doi:10.1147/JRD.2019.2934048 (englisch, ieee.org [abgerufen am 13. April 2026]).
↑ In-memory computing. In: IBM. 9. Februar 2021, abgerufen am 13. April 2026 (amerikanisches Englisch).
↑ Shengqi Yu et al.: Energy-efficient neural network design using memristive MAC unit. In: Frontiers in Electronics. Band 3, 26. September 2022, ISSN 2673-5857, doi:10.3389/felec.2022.877629 (englisch, frontiersin.org [abgerufen am 17. April 2026]).
↑ Jon Peddie: The History of the GPU - Eras and Environment. Springer International Publishing, Cham 2022, ISBN 978-3-031-13580-4, doi:10.1007/978-3-031-13581-1 (englisch, springer.com [abgerufen am 15. April 2026]).
↑ Convolutional neural network demo from 1993 featuring DSP32 accelerator. In: YouTube. 2. Juni 2014, abgerufen am 21. November 2024 (englisch).
↑ Gschwind, M., Salapura, V., Maischberger, O.: Space Efficient Neural Net Implementation. Februar 1995, abgerufen am 25. November 2024 (englisch).
↑ Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit. In: Qualcomm. Abgerufen am 25. November 2024 (englisch).
↑ Intel® Advanced Matrix Extensions Überblick. In: Intel. Abgerufen am 13. April 2026.
↑ ^a ^b Yiran Chen et al.: A Survey of Accelerator Architectures for Deep Neural Networks. In: Engineering. Band 6, Nr. 3, März 2020, S. 264–274, doi:10.1016/j.eng.2020.01.007 (englisch, elsevier.com [abgerufen am 14. April 2026]).
↑ Biagio Peccerillo et al.: A survey on hardware accelerators: Taxonomy, trends, challenges, and perspectives. In: Journal of Systems Architecture. Band 129, August 2022, S. 102561, doi:10.1016/j.sysarc.2022.102561 (englisch, elsevier.com [abgerufen am 14. April 2026]).
↑ Vasuki Shankar: Chip Architecture for AI - A Comprehensive Survey of Design Principles, Technologies, and Implementations. In: 2024 2nd International Conference on Signal Processing, Communication, Power and Embedded System (SCOPES). Dezember 2024, S. 1–6, doi:10.1109/SCOPES64467.2024.10991015 (englisch, ieee.org [abgerufen am 14. April 2026]).
↑ Apple spricht nur von Bionic und meint einen NPU/NNP-Zusatz
↑ Zhong Sun et al.: A full spectrum of computing-in-memory technologies. In: Nature Electronics. Band 6, Nr. 11, 13. November 2023, ISSN 2520-1131, S. 823–835, doi:10.1038/s41928-023-01053-4 (englisch, nature.com [abgerufen am 14. April 2026]).
↑ John R. Hu et al.: Co-Optimization of GPU AI Chip from Technology, Design, System and Algorithms. In: 2024 IEEE International Electron Devices Meeting (IEDM). Dezember 2024, S. 1–4, doi:10.1109/IEDM50854.2024.10873439 (englisch, ieee.org [abgerufen am 14. April 2026]).
↑ Yinhe Han et al.: The Big Chip: Challenge, model and architecture. In: Fundamental Research. Band 4, Nr. 6, November 2024, S. 1431–1441, doi:10.1016/j.fmre.2023.10.020, PMID 39734551, PMC 11670732 (freier Volltext) – (englisch, elsevier.com [abgerufen am 14. April 2026]).
↑ Mihrimah Ozkan et al.: Performance, efficiency, and cost analysis of wafer-scale AI accelerators vs. single-chip GPUs. In: Device. Band 3, Nr. 10, Oktober 2025, S. 100834, doi:10.1016/j.device.2025.100834 (englisch, elsevier.com [abgerufen am 14. April 2026]).
↑ Emil Talpes et al.: The Microarchitecture of DOJO, Tesla’s Exa-Scale Computer. In: IEEE Micro. Band 43, Nr. 3, Mai 2023, ISSN 1937-4143, S. 31–39, doi:10.1109/MM.2023.3258906 (englisch, ieee.org [abgerufen am 14. April 2026]).
↑ Understanding TOPS, FLOPS, MIPS, and DMIPS. In: Kad. 23. Februar 2024, abgerufen am 20. April 2026 (englisch).
↑ NVIDIA H200 GPU. In: Nvidia. 2026, abgerufen am 20. April 2026 (amerikanisches Englisch).
↑ Ara240 USB Module: eTOPS for Gen AI Workloads. In: NXP. 2026, abgerufen am 20. April 2026 (englisch).
↑ MLCommons - Better AI for Everyone. Abgerufen am 20. April 2026 (amerikanisches Englisch).
↑ IT-Boltwise: Der Wandel in Rechenzentren: KI-Chips und Beschleuniger auf dem Vormarsch. In: IT BOLTWISE x Artificial Intelligence. 28. September 2024, abgerufen am 13. April 2026.
↑ Optimierung der IT-Strategie durch Cloud-Computing Trends 2024. In: cloudcomputing-insider. 18. Januar 2024, abgerufen am 13. April 2026.
↑ James O'Donnell, Casey Crownhart: We did the math on AI’s energy footprint. Here’s the story you haven’t heard. In: Technology Review. 20. Mai 2025, abgerufen am 11. April 2026 (englisch).
↑ Better language models and their implications. In: OpenAI. 14. Februar 2019, abgerufen am 15. Januar 2024 (englisch).
↑ Xin Chen, Xiaoyang Wang, Ana Colacelli, Matt Lee, Le Xie: Electricity Demand and Grid Impacts of AI Data Centers: Challenges and Prospects. In: Arxiv. 26. November 2025, abgerufen am 1. April 2026 (englisch).
↑ The $7 trillion data center build-out: How industrials can capture their share. McKinsey, 27. März 2026, abgerufen am 1. April 2026 (englisch).
↑ NVIDIA Grace Hopper Superchip. In: Nvidia. Abgerufen am 13. April 2026 (deutsch).
↑ Anne C. Elster, Tor A. Haugdahl: Nvidia Hopper GPU and Grace CPU Highlights. In: Computing in Science & Engineering. Band 24, Nr. 2, März 2022, ISSN 1558-366X, S. 95–100, doi:10.1109/MCSE.2022.3163817 (englisch, ieee.org [abgerufen am 14. April 2026]).
↑ Toshihiro Hanawa et al.: Preliminary Performance Evaluation of Grace-Hopper GH200. In: 2024 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops). September 2024, S. 184–185, doi:10.1109/CLUSTERWorkshops61563.2024.00050 (englisch, ieee.org [abgerufen am 14. April 2026]).
↑ Jack Choquette: NVIDIA Hopper H100 GPU: Scaling Performance. In: IEEE Micro. Band 43, Nr. 3, Mai 2023, ISSN 1937-4143, S. 9–17, doi:10.1109/MM.2023.3256796 (englisch, ieee.org [abgerufen am 14. April 2026]).
↑ AWS Trainium. In: AWS. Abgerufen am 13. April 2026 (deutsch).
↑ Tripp Mickle: Can Apple’s iPhones Pass the A.I. Test? In: The New York Times. 9. September 2024, ISSN 0362-4331 (englisch, nytimes.com [abgerufen am 13. April 2026]).
↑ Wenn »TOPS« in die Irre führen. In: elektroniknet.de. 23. Februar 2021, abgerufen am 13. April 2026.
↑ Apple stellt den M4 Chip vor. Abgerufen am 31. Juli 2025 (deutsch).
↑ AMD Ryzen™ AI 300-Serie Prozessoren. Abgerufen am 31. Juli 2025.
↑ Intel® Core™ Ultra Processors. Abgerufen am 31. Juli 2025 (englisch).
↑ ^a ^b Qualcomm Snapdragon X. Abgerufen am 31. Juli 2025 (englisch).
↑ ^a ^b Anna Schulte-Loosen: Spezialhardware für künstliche Intelligenz. Fraunhofer-Institut INT, September 2023, abgerufen am 25. November 2024
↑ Don Clark: Gehirn-Chip mit normaler Prozessor-Technik. Die Welt, 11. August 2014, abgerufen am 25. November 2024.
↑ Dharmendra S. Modha et al.: Neural inference at the frontier of energy, space, and time. In: Science. Band 382, Nr. 6668, 20. Oktober 2023, S. 329–335, doi:10.1126/science.adh1174 (englisch, science.org [abgerufen am 13. April 2026]).
↑ EPI - The European High Performance Computing Joint Undertaking (EuroHPC JU). Abgerufen am 13. April 2026 (englisch).
↑ Accelerator. In: European Processor Initiative. Abgerufen am 13. April 2026 (amerikanisches Englisch).
↑ M. Schuld et al.: The quest for a Quantum Neural Network. In: Arxiv. 29. August 2014, abgerufen am 13. April 2026 (englisch).
↑ Massimo Panella, G. Martinelli: Neural networks with quantum architecture and quantum learning. In: International Journal of Circuit Theory and Applications. Jg. 39, Nr. 1. London 2011, S. 61–77, doi:10.1002/cta.619 (englisch).
↑ Massimo Panella et al.: Neural networks with quantum architecture and quantum learning. In: International Journal of Circuit Theory and Applications. Band 39, Nr. 1, Januar 2011, ISSN 0098-9886, S. 61–77, doi:10.1002/cta.619 (englisch, wiley.com [abgerufen am 13. April 2026]).
↑ Cade Metz: Quantum Computing Inches Closer to Reality After Another Google Breakthrough. In: The New York Times. 9. Dezember 2024, ISSN 0362-4331 (nytimes.com [abgerufen am 13. April 2026]).
↑ T. R. D. Staff: OpenAI exits San Francisco HQ after Elon Musk stops paying rent. In: The Real Deal. 26. August 2024, abgerufen am 17. April 2026 (englisch).

[1] Neural Compute Stick (NCS) 1 wurde schon 2019 gestoppt, der NCS 2 dann 2022.

[IBM-2] Was ist ein KI-Beschleuniger? | IBM. In: IBM. 12. Juni 2024, abgerufen am 13. April 2026.

[3] IBM’s new AIU artificial intelligence chip. In: IBM. 9. Februar 2021, abgerufen am 13. April 2026 (amerikanisches Englisch).

[:23-4] Introducing NVFP4 for Efficient and Accurate Low-Precision Inference. In: Nvidia. 24. Juni 2025, abgerufen am 3. April 2026 (amerikanisches Englisch).

[:24-5] Brian Chmiel et al.: FP4 All the Way: Fully Quantized Training of LLMs. In: Arxiv. 10. August 2025, abgerufen am 3. April 2026 (englisch).

[6] Sparsh Mittal: A survey on modeling and improving reliability of DNN algorithms and accelerators. In: Journal of Systems Architecture. Band 104, März 2020, S. 101689, doi:10.1016/j.sysarc.2019.101689 (englisch, elsevier.com [abgerufen am 14. April 2026]).

[7] Dieses System ist nicht Teil der Klasse der Supercomputer, sondern als eine moderne und spezialisierte Motorsteuerung (ECU) zu verstehen. Siehe auch Robotaxis u. dgl.

[8] Synthara ComputeRAM in AI accelerators: An LLM case study. In: Synthara.ai. Abgerufen am 13. April 2026 (amerikanisches Englisch).

[9] S. Ghose et al.: Processing-in-memory: A workload-driven perspective. In: IBM Journal of Research and Development. Band 63, Nr. 6, November 2019, ISSN 0018-8646, S. 3:1–3:19, doi:10.1147/JRD.2019.2934048 (englisch, ieee.org [abgerufen am 13. April 2026]).

[10] In-memory computing. In: IBM. 9. Februar 2021, abgerufen am 13. April 2026 (amerikanisches Englisch).

[11] Shengqi Yu et al.: Energy-efficient neural network design using memristive MAC unit. In: Frontiers in Electronics. Band 3, 26. September 2022, ISSN 2673-5857, doi:10.3389/felec.2022.877629 (englisch, frontiersin.org [abgerufen am 17. April 2026]).

[12] Jon Peddie: The History of the GPU - Eras and Environment. Springer International Publishing, Cham 2022, ISBN 978-3-031-13580-4, doi:10.1007/978-3-031-13581-1 (englisch, springer.com [abgerufen am 15. April 2026]).

[13] Convolutional neural network demo from 1993 featuring DSP32 accelerator. In: YouTube. 2. Juni 2014, abgerufen am 21. November 2024 (englisch).

[14] Gschwind, M., Salapura, V., Maischberger, O.: Space Efficient Neural Net Implementation. Februar 1995, abgerufen am 25. November 2024 (englisch).

[15] Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit. In: Qualcomm. Abgerufen am 25. November 2024 (englisch).

[16] Intel® Advanced Matrix Extensions Überblick. In: Intel. Abgerufen am 13. April 2026.

[:1-17] Yiran Chen et al.: A Survey of Accelerator Architectures for Deep Neural Networks. In: Engineering. Band 6, Nr. 3, März 2020, S. 264–274, doi:10.1016/j.eng.2020.01.007 (englisch, elsevier.com [abgerufen am 14. April 2026]).

[18] Biagio Peccerillo et al.: A survey on hardware accelerators: Taxonomy, trends, challenges, and perspectives. In: Journal of Systems Architecture. Band 129, August 2022, S. 102561, doi:10.1016/j.sysarc.2022.102561 (englisch, elsevier.com [abgerufen am 14. April 2026]).

[19] Vasuki Shankar: Chip Architecture for AI - A Comprehensive Survey of Design Principles, Technologies, and Implementations. In: 2024 2nd International Conference on Signal Processing, Communication, Power and Embedded System (SCOPES). Dezember 2024, S. 1–6, doi:10.1109/SCOPES64467.2024.10991015 (englisch, ieee.org [abgerufen am 14. April 2026]).

[20] Apple spricht nur von Bionic und meint einen NPU/NNP-Zusatz

[21] Zhong Sun et al.: A full spectrum of computing-in-memory technologies. In: Nature Electronics. Band 6, Nr. 11, 13. November 2023, ISSN 2520-1131, S. 823–835, doi:10.1038/s41928-023-01053-4 (englisch, nature.com [abgerufen am 14. April 2026]).

[22] John R. Hu et al.: Co-Optimization of GPU AI Chip from Technology, Design, System and Algorithms. In: 2024 IEEE International Electron Devices Meeting (IEDM). Dezember 2024, S. 1–4, doi:10.1109/IEDM50854.2024.10873439 (englisch, ieee.org [abgerufen am 14. April 2026]).

[23] Yinhe Han et al.: The Big Chip: Challenge, model and architecture. In: Fundamental Research. Band 4, Nr. 6, November 2024, S. 1431–1441, doi:10.1016/j.fmre.2023.10.020, PMID 39734551, PMC 11670732 (freier Volltext) – (englisch, elsevier.com [abgerufen am 14. April 2026]).

[24] Mihrimah Ozkan et al.: Performance, efficiency, and cost analysis of wafer-scale AI accelerators vs. single-chip GPUs. In: Device. Band 3, Nr. 10, Oktober 2025, S. 100834, doi:10.1016/j.device.2025.100834 (englisch, elsevier.com [abgerufen am 14. April 2026]).

[25] Emil Talpes et al.: The Microarchitecture of DOJO, Tesla’s Exa-Scale Computer. In: IEEE Micro. Band 43, Nr. 3, Mai 2023, ISSN 1937-4143, S. 31–39, doi:10.1109/MM.2023.3258906 (englisch, ieee.org [abgerufen am 14. April 2026]).

[26] Understanding TOPS, FLOPS, MIPS, and DMIPS. In: Kad. 23. Februar 2024, abgerufen am 20. April 2026 (englisch).

[27] NVIDIA H200 GPU. In: Nvidia. 2026, abgerufen am 20. April 2026 (amerikanisches Englisch).

[28] Ara240 USB Module: eTOPS for Gen AI Workloads. In: NXP. 2026, abgerufen am 20. April 2026 (englisch).

[29] MLCommons - Better AI for Everyone. Abgerufen am 20. April 2026 (amerikanisches Englisch).

[30] IT-Boltwise: Der Wandel in Rechenzentren: KI-Chips und Beschleuniger auf dem Vormarsch. In: IT BOLTWISE x Artificial Intelligence. 28. September 2024, abgerufen am 13. April 2026.

[UG-31] Optimierung der IT-Strategie durch Cloud-Computing Trends 2024. In: cloudcomputing-insider. 18. Januar 2024, abgerufen am 13. April 2026.

[:22-32] James O'Donnell, Casey Crownhart: We did the math on AI’s energy footprint. Here’s the story you haven’t heard. In: Technology Review. 20. Mai 2025, abgerufen am 11. April 2026 (englisch).

[:3-33] Better language models and their implications. In: OpenAI. 14. Februar 2019, abgerufen am 15. Januar 2024 (englisch).

[34] Xin Chen, Xiaoyang Wang, Ana Colacelli, Matt Lee, Le Xie: Electricity Demand and Grid Impacts of AI Data Centers: Challenges and Prospects. In: Arxiv. 26. November 2025, abgerufen am 1. April 2026 (englisch).

[35] The $7 trillion data center build-out: How industrials can capture their share. McKinsey, 27. März 2026, abgerufen am 1. April 2026 (englisch).

[36] NVIDIA Grace Hopper Superchip. In: Nvidia. Abgerufen am 13. April 2026 (deutsch).

[37] Anne C. Elster, Tor A. Haugdahl: Nvidia Hopper GPU and Grace CPU Highlights. In: Computing in Science & Engineering. Band 24, Nr. 2, März 2022, ISSN 1558-366X, S. 95–100, doi:10.1109/MCSE.2022.3163817 (englisch, ieee.org [abgerufen am 14. April 2026]).

[38] Toshihiro Hanawa et al.: Preliminary Performance Evaluation of Grace-Hopper GH200. In: 2024 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops). September 2024, S. 184–185, doi:10.1109/CLUSTERWorkshops61563.2024.00050 (englisch, ieee.org [abgerufen am 14. April 2026]).

[39] Jack Choquette: NVIDIA Hopper H100 GPU: Scaling Performance. In: IEEE Micro. Band 43, Nr. 3, Mai 2023, ISSN 1937-4143, S. 9–17, doi:10.1109/MM.2023.3256796 (englisch, ieee.org [abgerufen am 14. April 2026]).

[40] AWS Trainium. In: AWS. Abgerufen am 13. April 2026 (deutsch).

[41] Tripp Mickle: Can Apple’s iPhones Pass the A.I. Test? In: The New York Times. 9. September 2024, ISSN 0362-4331 (englisch, nytimes.com [abgerufen am 13. April 2026]).

[42] Wenn »TOPS« in die Irre führen. In: elektroniknet.de. 23. Februar 2021, abgerufen am 13. April 2026.

[43] Apple stellt den M4 Chip vor. Abgerufen am 31. Juli 2025 (deutsch).

[44] AMD Ryzen™ AI 300-Serie Prozessoren. Abgerufen am 31. Juli 2025.

[45] Intel® Core™ Ultra Processors. Abgerufen am 31. Juli 2025 (englisch).

[:0-46] Qualcomm Snapdragon X. Abgerufen am 31. Juli 2025 (englisch).

[AS-47] Anna Schulte-Loosen: Spezialhardware für künstliche Intelligenz. Fraunhofer-Institut INT, September 2023, abgerufen am 25. November 2024

[48] Don Clark: Gehirn-Chip mit normaler Prozessor-Technik. Die Welt, 11. August 2014, abgerufen am 25. November 2024.

[49] Dharmendra S. Modha et al.: Neural inference at the frontier of energy, space, and time. In: Science. Band 382, Nr. 6668, 20. Oktober 2023, S. 329–335, doi:10.1126/science.adh1174 (englisch, science.org [abgerufen am 13. April 2026]).

[50] EPI - The European High Performance Computing Joint Undertaking (EuroHPC JU). Abgerufen am 13. April 2026 (englisch).

[51] Accelerator. In: European Processor Initiative. Abgerufen am 13. April 2026 (amerikanisches Englisch).

[52] M. Schuld et al.: The quest for a Quantum Neural Network. In: Arxiv. 29. August 2014, abgerufen am 13. April 2026 (englisch).

[53] Massimo Panella, G. Martinelli: Neural networks with quantum architecture and quantum learning. In: International Journal of Circuit Theory and Applications. Jg. 39, Nr. 1. London 2011, S. 61–77, doi:10.1002/cta.619 (englisch).

[54] Massimo Panella et al.: Neural networks with quantum architecture and quantum learning. In: International Journal of Circuit Theory and Applications. Band 39, Nr. 1, Januar 2011, ISSN 0098-9886, S. 61–77, doi:10.1002/cta.619 (englisch, wiley.com [abgerufen am 13. April 2026]).

[55] Cade Metz: Quantum Computing Inches Closer to Reality After Another Google Breakthrough. In: The New York Times. 9. Dezember 2024, ISSN 0362-4331 (nytimes.com [abgerufen am 13. April 2026]).

[56] T. R. D. Staff: OpenAI exits San Francisco HQ after Elon Musk stops paying rent. In: The Real Deal. 26. August 2024, abgerufen am 17. April 2026 (englisch).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

KI-Beschleuniger 📖 Wikipedia

Inhaltsverzeichnis

Beschreibung

Entwicklungsgeschichte

Taxonomie: KI-Chips, Zusatzkarten und Systeme

Leistungsmetriken

Einsatzdomäne: Rechenzentren, Server und Workstations

Einsatzdomäne: Endgeräte für Benutzer

Weitere KI-optimierte Chipsätze

Spiking Neural Networks (Gepulste neuronale Netze)

Combined Stencil and Tensor Accelerator

Quantum Neural Network

Trivia

Siehe auch

Weblinks

Einzelnachweise

📚 Artikel Terkait di Wikipedia

Quantencomputer

Large Language Model

Nvidia Tesla

Python (Programmiersprache)

R (Programmiersprache)

ARM-Architektur

NumPy

Aicke Hinrichs