Stell dir vor, du könntest die beeindruckende Leistung moderner KI-Modelle wie GitHub Copilot oder GPT-3 nicht nur in riesigen Rechenzentren nutzen, sondern genau dort, wo sie am dringendsten gebraucht wird: direkt vor Ort, beim Kunden, auf winzigen Geräten. Klingt super, oder? Genau das ist die Vision hinter Edge AI. Doch die Realität ist, dass wir dabei auf einige echte Brocken stoßen, denn es ist eine Kunst, KI-Modelle effizient auf Edge-Geräten auszuführen.
Wir sprechen hier von Geräten, die zwar mit dem Internet verbunden sind, aber dem Nutzer viel näher sind als die Server in einem fernen Rechenzentrum. Die Bandbreite ist enorm: Von Robotern über unbemannte Flugobjekte, Satelliten zur Fernerkundung bis hin zu Smart-Home-Geräten wie deinem Amazon Echo oder Wearables wie deiner Smartwatch. Selbst Smartphones gehören dazu, Laptops eher nicht. All diese Geräte haben ganz unterschiedliche Einschränkungen, besonders was Energiemanagement, Rechenleistung und Speicher angeht.
Ein Chip für Edge AI in einem selbstfahrenden Auto muss zum Beispiel extrem schnell Ergebnisse liefern, Latenz ist hier der Knackpunkt. Eine kleine Drohne hingegen hat nur Energie für 20-30 Minuten Flugzeit und kann daher weniger als fünf Prozent ihres gesamten Energiebudgets für Berechnungen aufwenden. Meistens geht es bei diesen Edge-KI-Aufgaben um Computer Vision oder Audioverarbeitung – denk an Gesichtserkennung, Verkehrsplanung oder Sprachverarbeitung.
Die Modelle selbst sind über die Jahre riesig geworden: Während AlexNet 2012 noch 61 Millionen Gewichte hatte, kam das Sieger-Imagenet-Modell CoCa 2021 auf unglaubliche 2,1 Milliarden Gewichte. Neuronale Netze verbrauchen von Natur aus viel Energie, bis zu 13.500 Mal mehr als vergleichbare Nicht-Deep-Learning-Methoden. Und dann ist da noch der Speicher: Gewichte und Eingaben im Gerätespeicher abzulegen, ist extrem energieintensiv – bis zu 200 Mal mehr als eine einfache Multiplikationsoperation. Es ist klar: Ein Modell in einen Edge-KI-Kontext zu quetschen, erfordert Kompromisse. Es muss kleiner sein und weniger Rechenleistung benötigen, was leider meist eine schlechtere Leistung bedeutet.
Traditionelle Cloud-basierte oder Hybrid-Ansätze für KI am Edge haben Nachteile wie Latenz, Konnektivitätsprobleme und Datenschutzbedenken
Anfangs versuchten viele Unternehmen, diesen Problemen einfach aus dem Weg zu gehen, indem sie alles in die Cloud auslagerten. Stell dir Siri oder Alexa vor: Das Gerät ist ein sogenannter „Thin Client“, der nur die Informationen zwischen dir und dem Server hin- und herleitet. Das hat Vorteile, aber auch klare Nachteile: Latenzprobleme, Probleme mit der Verbindungsstabilität und natürlich der Datenschutz.
Ein Mittelweg ist der Hybridansatz, bei dem die Rechenlast zwischen dem Edge-Gerät und dem Server aufgeteilt wird. Das Edge-Gerät könnte eine erste Datenverarbeitung vornehmen und die Ergebnisse dann zur finalen Bestätigung in die Cloud hochladen. Auch das kann funktionieren, aber irgendwie werden hier die Nachteile beider Welten kombiniert. Man muss Modelle sowohl auf dem Edge-Gerät als auch auf dem Server pflegen – das ist doppelte Arbeit.
Software-Optimierungen wie die Entwicklung kompakter Modelle (z.B. SqueezeNet, MobileNet), Gewichtsquantisierung und Pruning sind essenziell, um KI-Modelle für Edge-Geräte anzupassen
Wenn wir moderne KI-Modelle nicht einfach so auf Edge Hardware laufen lassen können, gibt es dann Wege, die Modelle selbst anzupassen? Ja, absolut! Das ist das Feld der KI-Modell Optimierung für neuronale Netze und es ist gerade ein sehr spannendes Thema.
Ein Ansatz ist, von Grund auf kompakte Modelle zu trainieren. Beispiele dafür sind SqueezeNet und MobileNet. Sie ersetzen oft traditionelle neuronale Netzwerkstrukturen durch neue, um die Anzahl der Gewichte zu reduzieren. Weniger Gewichte bedeuten weniger Größe und geringeren Speicherbedarf. Die Entwickler von SqueezeNet behaupteten, eine ähnliche Genauigkeit wie AlexNet mit 50-mal weniger Gewichten und einer Dateigröße von nur einem halben Megabyte erreicht zu haben.
Ein zweiter Ansatz ist die Nachbearbeitung bereits trainierter Modelle. Da neuronale Netze im Grunde Matrixmultiplikationen sind, kann man Speicher sparen, indem man die Matrizen schrumpft. Das ist die Idee hinter der Gewichtsquantisierung: Wir ändern die Art und Weise, wie die Gewichte im Speicher abgelegt werden – zum Beispiel von einer 32-Bit-Gleitkommazahl zu einer 8-Bit-Festkommazahl. Eine weitere Technik ist das Pruning, bei dem redundante Gewichte entfernt werden. Studien zeigen, dass bis zu 95 Prozent der Gewichte stark mit wenigen Schlüsselgewichten korrelieren. Man könnte sie entfernen und trotzdem einen Großteil der Genauigkeit beibehalten.
Aber Achtung: Nichts davon ist umsonst. Es gibt immer einen Kompromiss zwischen Genauigkeit und Speicher-/Stromverbrauch. Die Quantisierung von 32-Bit auf 8-Bit kann zum Beispiel zu einem Genauigkeitsverlust von über 12 Prozent führen. Und leider erfüllen die tatsächlichen Ergebnisse mancher Optimierungsmethoden nicht immer die Erwartungen.
Spezialisierte Hardware wie FPGAs (Field-Programmable Gate Arrays) und ASICs (Application-Specific Integrated Circuits) bieten durch ihre Parallelverarbeitung und maßgeschneiderte Architekturen deutlich bessere Effizienz für Edge AI als generische CPUs oder GPUs
Neben der Software ist die richtige Hardware entscheidend. Es gibt vier gängige Hardwaretypen für Edge AI: CPUs, GPUs, FPGAs und ASICs. Keiner ist perfekt, jeder hat seine Stärken und Schwächen.
* CPUs (inklusive Mikrocontroller, MCUs) kennen wir alle. Sie sind vielseitig, einfach zu programmieren, verbrauchen wenig Strom und sind günstig (denk an den Raspberry Pi). Ihr größter Nachteil ist, dass sie nicht sehr parallel arbeiten können. Moderne neuronale Netze auf Edge-Geräten erfordern aber genau das: viele parallele Operationen. Für sehr kleine Modelle können sie aber ausreichen, es gibt sogar spannende Projekte wie TensorFlow Lite für Mikrocontroller.
* GPUs, ursprünglich für Spiele entwickelt, sind massiv parallel und dank Plattformen wie NVIDIAs CUDA leicht programmierbar. Das macht sie ideal für das Training von KI-Modellen. Für Inferenz am Edge sind sie aber oft zu energiehungrig. Ein Beispiel für eine Edge-GPU ist die NVIDIA Jetson Nano. Für viele Edge AI-Lösungen gelten CPUs und GPUs daher nicht als die besten Hardware-Optionen.
* Hier kommen FPGAs (Field-Programmable Gate Arrays) ins Spiel. Diese integrierten Schaltkreise bestehen aus programmierbaren Logikblöcken und sind, ähnlich wie GPUs, von Natur aus parallel. Mit Hardware-Beschreibungssprachen wie VHDL kann man sie beliebig konfigurieren und neu konfigurieren. Diese Flexibilität ist besonders nützlich in Bereichen wie der Automobilindustrie, wo sich Regeln und Algorithmen schnell ändern können. FPGAs sind auch energieeffizienter, besonders wenn Modelle in ihren speziellen Speicherblöcken (Block RAM) Platz finden. Der Nachteil ist die geringere Speicherbandbreite und Rechenleistung im Vergleich zu GPUs sowie die Notwendigkeit spezieller Designkenntnisse.
* Am Ende haben wir die ASICs (Application-Specific Integrated Circuits). Das sind Prozessoren, die für eine ganz bestimmte Aufgabe maßgeschneidert sind, wie zum Beispiel KI-Beschleuniger. Ihr größter Nachteil? Die enormen Vorabinvestitionen in Design und Produktion – das kann Millionen von Dollar kosten. Und einmal gefertigt, kann man die Architektur nicht mehr ändern. Trotzdem gibt es viele spannende Edge-KI-Beschleuniger von Anbietern wie Intels Movidius Myriad X VPU, Googles Edge TPU oder NVIDIAs Tegra-Serie. Auch kleinere Unternehmen wie Rockchip, Notgayer Falcon Technology oder Nehron bieten spezialisierte NPU-Chips an.
Die Ko-Entwicklung von Hardware und Algorithmen (Design-Technology Co-Optimization) sowie Hardware-aware Neural Architecture Search sind vielversprechende Ansätze, um die Leistungsfähigkeit und Effizienz von Edge AI weiter zu steigern
Die größte Herausforderung bei Edge AI-Lösungen liegt in der extrem engen Verknüpfung von Hardware und Software. Jede Anpassung auf der einen Seite wirkt sich auf die andere aus, was den Fortschritt verlangsamt.
Hier setzt die Forschung an neuen Ansätzen an: Eine vielversprechende Methode ist die sogenannte Hardware-aware Neural Architecture Search. Dabei werden bestimmte Hardware-Variablen direkt in das Design des neuronalen Netzwerks einbezogen, damit es optimal auf einer spezifischen Hardware, zum Beispiel einer GPU oder einem FPGA, laufen kann. Bei ASICs ist das schwieriger, da die Hardware so stark angepasst werden kann.
ASICs eröffnen aber eine andere faszinierende Möglichkeit: das gleichzeitige Co-Design von Hardware und Algorithmen. Man entwickelt den Chip-Prozess und das Chip-Design Hand in Hand, mit dem Ziel des gemeinsamen Erfolgs – eine echte „Design-Technology Co-Optimization“. Das birgt enormes Potenzial für den Bereich der Edge Hardware.
Massive KI-Modelle sind leistungsfähiger als je zuvor. Wir sehen, wozu sie fähig sein könnten. Doch die Hersteller von Edge AI-Hardware stehen vor großen wirtschaftlichen und technischen Herausforderungen, diese Modelle unterzubringen. Wenn die Edge-Hardware nicht einen zufriedenstellenden Punkt erreicht, dann fürchte ich, wird das volle Potenzial der KI für immer in der flüchtigen Cloud eingeschlossen bleiben. Hoffen wir, dass die Branche sich weiterentwickelt und diese Grenzen überwindet!
—
Häufig gestellte Fragen
Was sind Edge-Geräte im Kontext von Edge AI?
Edge-Geräte sind Endgeräte, die sich näher am Nutzer befinden als zentrale Rechenzentren, aber dennoch mit dem Internet verbunden sind. Dazu gehören eine breite Palette von Geräten wie Roboter, Drohnen, Wearables, Smart-Home-Geräte wie Amazon Echo und Smartphones. Sie alle haben unterschiedliche Einschränkungen hinsichtlich Energieverbrauch, Rechenleistung und Speicher.
Warum ist es so schwierig, moderne KI-Modelle auf Edge-Geräten auszuführen?
Moderne KI-Modelle sind extrem groß und komplex, mit Milliarden von Gewichten. Neuronale Netze verbrauchen zudem deutlich mehr Energie als traditionelle Algorithmen. Das Speichern und Abrufen von Modellgewichten und Eingaben im Gerätespeicher ist besonders energieintensiv. Die begrenzten Ressourcen von Edge-Geräten – insbesondere in Bezug auf Rechenleistung, Speicher und Energiebudget – führen dazu, dass Modelle angepasst (verkleinert) werden müssen, was oft mit Leistungseinbußen einhergeht.
Welche Hardware-Typen werden typischerweise für Edge AI verwendet und was sind ihre Besonderheiten?
Für Edge AI werden hauptsächlich vier Hardware-Typen in Betracht gezogen:
1. CPUs (inkl. Mikrocontroller): Vielseitig, einfach zu programmieren, kostengünstig und energieeffizient für kleine Modelle, aber wenig parallel.
2. GPUs: Massiv parallel und gut programmierbar, ideal für das Training von KI. Für Edge-Inferenz sind sie jedoch oft zu energiehungrig.
3. FPGAs (Field-Programmable Gate Arrays): Bieten hohe Parallelität und sind konfigurierbar/rekonfigurierbar. Sie sind energieeffizienter als GPUs, erfordern aber spezielles Design-Know-how.
4. ASICs (Application-Specific Integrated Circuits): Maßgeschneiderte Prozessoren für spezifische Aufgaben, wie KI-Beschleuniger. Sie bieten die höchste Effizienz, erfordern aber sehr hohe Vorabinvestitionen und können nach der Fertigung nicht mehr geändert werden.

