Arm-Architektur

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Das Logo der Firma ARM
ARM-Prozessor vonConexant,der u. a. inRouternverwendet wird

DieARM-Architekturist eine ursprünglich 1983 vombritischenComputerunternehmenAcornentwickelteMikroprozessor-Architektur,die seit 1990 von der aus Acorn ausgelagerten FirmaARM Limitedweiterentwickelt wird. ARM stand fürAcornRISCMachines,[1]später fürAdvanced RISC Machines.[2]Obwohl der Name außerhalb derIT-Fachweltwenig bekannt ist, gehören Implementierungen dieses Typs weltweit zu den meistverbreiteten Mikroprozessoren.

Das Unternehmen ARM Limited stellt keine eigenenICsher, sondern vergibt unterschiedlicheLizenzenan Halbleiter-Entwicklungsunternehmen und Halbleiterhersteller. Dabei können die Kunden wählen zwischen Entwicklungslizenzen, die die Entwicklung eigener ICs auf Basis der ARM-Architektur ermöglichen, und dem Zukauf von sogenanntenIP-Cores,Funktionsblöcken wie CPU-Kerne derArm-Cortex-A-Reihe, GPU-Einheiten wieMalioder Bussystemen wieAMBA,die dann zu eigenenSystem-on-a-Chip-Bausteinen konfiguriert werden.

Die Vielzahl dieserLizenznehmerund verschiedene Vorteile der Architektur (z. B. geringer Energiebedarf bei hoher Leistungsfähigkeit) führten dazu, dass ARM-Implementierungen imEmbedded-Bereich die meistgenutzte Architektur sind. Fast alle derzeitigenSmartphonesundTabletcomputerhaben lizenzierte ARM-Prozessoren, darunter dasiPhoneund die meistenAndroid-Geräte. Die ersten ARM-Prozessoren(ARMv1)aus dem Jahr 1985 hatten eine32-Bit-Architektur(ARM32), etwa 2013 erschienen dann Prozessoren mit64-Bit-Architektur(Armv8-Serie,ARM64). Die ersten 64-Bit-Systeme waren derX-Geneder Firma Applied Micro Circuits Corporation im Juni 2013[3]und im September 2013 derA7imiPhone 5s.[4]

Die ARM-Architektur wurde 1983 vom englischen ComputerherstellerAcornals Entwicklungsprojekt gestartet. Das Team begann unter der Leitung vonSophie WilsonundSteve Furberdie Entwicklung eines leistungsfähigenProzessorsfür einen Nachfolger der bis dahin auf dem6502basierenden Computer.

Anstatt wie die Konkurrenz auf Prozessoren der UnternehmenInteloderMotorolazurückzugreifen, entwickelte man einen eigenen Prozessor, den ARM (Acorn Risc Machine) mit 32 Bit und einer geplantenTaktfrequenzvon 4 MHz. Die Tests mit den Prototypen verliefen derart erfolgreich, dass die späteren Serienprozessoren (ARM2, 1986), die in den neu entwickelten Rechnern (Acorn Archimedes) verbaut wurden, direkt mit 8 MHz getaktet wurden. Tests ergaben, dass diese Rechner bei praktisch gleicher Taktfrequenz etwa achtmal schneller waren als die Konkurrenten CommodoreAmigaundAtari STmitMotorola-68000-Prozessor.

Nachdem der ARM2 1989 zum ARM3 (mit Cache und höherer Taktfrequenz) weiterentwickelt worden war, und immer mehr Unternehmen Interesse an diesen Prozessoren bekundet hatten, gründete Acorn im Jahre 1990 zusammen mitAppleundVLSI Technologydas Unternehmen Advanced RISC Machines Ltd. mit Sitz in Großbritannien, das später inARM Ltd.umbenannt wurde.

Die Architektur zeichnet sich durch einen effizientenBefehlssatzaus, erlaubt eine kompakteASIC-Implementierung und ist gut für Optimierungen im Bereich der Ausführungsgeschwindigkeit und der Stromaufnahme geeignet.

Eine bedeutende Implementierung ist der alsStrongARMbekannte Mikrocontroller.

Der HerstellerIntelist neben anderen Marktteilnehmern Lizenznehmer des Unternehmens Advanced RISC Machines Ltd. und darf somit auf der ARM-Architektur basierende Prozessoren herstellen. Darüber hinaus darf Intel (neben z. B.Apple,Motorola/FreescaleoderNXP), im Gegensatz zu den meisten anderen Lizenznehmern, Änderungen und Erweiterungen am ARM-Kern durchführen. So vertrieb Intel bis 2006 unter dem NamenXScaleeine in Lizenz gefertigte ARM-CPU und weitere ebenfalls als XScale bezeichnete und perBusangebundene Peripherie-Halbleiter. Dazu gehören die PXA250-, PXA260- und PXA270-Prozessoren, die häufig inPDAsundSmartphoneszum Einsatz kamen, vor allem fürWindows CEundPalm OS.

DieGNU Compiler Collectionkann Code für ARM erzeugen und auch derXNU-Kernel (macOS/iOS),Linux-KernelundWindows NT Kernel 6.2laufen auf diesemCPU-Typ.

Aufgrund ihrer geringenLeistungsaufnahmekommen ARM-Prozessoren vor allem ineingebetteten SystemenwieMobiltelefonen,PDAsundRouternzum Einsatz. Besondere Bedeutung hat die Architektur beiSmartphones,da sie von allen verbreiteten mobilen Betriebssystemen unterstützt wird. Bei tragbarenSpielkonsolenbesteht eine ähnliche Verbreitung. Ebenfalls findet man die CPUs in vielen stationären Geräten derUnterhaltungselektronik.

Arbeitsplatzrechner

[Bearbeiten|Quelltext bearbeiten]

Die Rechner derAcorn-Archimedes- undRisc-PC-Reihe vonAcornverwendeten ebenfalls ARM-CPUs. Nachfolgemodelle dieser Desktop-Rechner waren unter anderem vom Unternehmen Castle Technology unter dem NamenIYONIX pcerhältlich.

Im Herbst 2020 stellteAppledrei Systeme aus der Mac-Reihe vor, welche mit demApple M1ein ARM-basiertes Ein-Chip-System (System on a Chip, SoC) als Prozessor verwenden.[5]

Auch auf demRaspberry Piist einEin-Chip-SystemvonBroadcommit einem ARM-Mikroprozessor verbaut.

Mit der Fertigstellung der 64-Bit-Mikroarchitektur Armv8 im Jahre 2012 waren die Voraussetzungen für einen Einsatz von ARM-Prozessoren in Serversystemen gegeben. ARM stand hier vor der Aufgabenstellung, ein komplettes Marktsegment zu definieren, da Serversysteme auch spezialisierte Betriebssysteme und Anwendungen benötigen. Unter Mitarbeit vonRed Hatund anderen Betriebssystemherstellern entstand 2016 dieServer Base System Architecture(SBSA),[6]eine Spezifikation, die alle Hardware-Schnittstellen beinhaltet, die auf einem Serversystem für das Betriebssystem benötigt werden. Daraufhin entstanden ARM-Linux-Server-Distributionen von Red Hat, SuSE und Ubuntu sowie eine Windows-ARM-Server-Variante von Microsoft, welche wiederum eine Basis von wichtigen Infrastrukturanwendungen zur Verfügung stellen. Die Arm-Architektur ist auch für dieses Marktsegment wegen ihrer geringen Leistungsaufnahme (Preis / Watt und Preis / Performance Index) interessant, weswegen ARM Serverprozessoren auch für Höchstleistungsrechner undSupercomputerbewirbt.

Mehrere Partner (Architektur-Lizenznehmer) entwickelten daraufhin ARM-Server-Prozessoren:

Im Herbst 2018 gab ARM eine eigene Roadmap über Technologien für Server-Prozessoren, genanntNeoverse,heraus.[7][8]Dies dokumentiert, dass weitere ARM-Entwicklungen und Support für die Entwicklungspartner zu erwarten sind.

Befehlssatz und Programmiermodell

[Bearbeiten|Quelltext bearbeiten]

Die ARM-CPU ist eineRISC-Architektur und kennt als solche drei Kategorien von Befehlen:

  • Befehle zum Zugriff auf den Speicher (Load/Store),
  • arithmetische oder logische Befehle für Werte in Registern,
  • Befehle zum Ändern des Programmflusses (Sprünge, Unterprogrammaufrufe).

Die ARM verwendet einenDrei-Adress-Code-Befehlssatz, alle arithmetisch-logischen Befehle akzeptieren also ein Zielregister und zwei Operandenregister.

Beispiel
ADDr0,r1,r2;r0:= r1 + r2

Die ARM ist sowohlLittle-Endian- als auchBig-Endian-kompatibel, kann also mit beiden Byte-Reihenfolgen umgehen, was angesichts des Einsatzzwecks als Standard-CPU in Kommunikationsgeräten ein deutlicher Vorteil ist. Der Standardmodus der ARM ist Little-Endian.

Daten und Code (BE32)
  • ARMv4
  • ARMv5
  • ARMv6
Nur Daten (BE8)
  • ARMv6
  • ARMv7
  • ARMv8

Wie viele RISC-CPUs bietet ARM eine große Anzahl von Registern: Dem Programmierer stehen 13 Universal-Register zur Verfügungr0...r12.Drei zusätzliche Registerr13...r15sind wie Universal-Register adressierbar, haben aber spezifische Bedeutungen. Diese sind einStackpointerr13,ein „Link-Register “r14,das die Rücksprungadresse bei Prozeduraufrufen (mitBL„branch with link “) enthält, die später zurück in denProgrammzählergeschrieben wird, sowie der Programmzähler (Program-Counter, PC) selbstr15.Zusätzlich zu diesen direkt veränderbaren Registern gibt es das Status-Register (CPSR,Current-Program-Status-Register), das die Statusbits und andere Informationen, wie z. B. den momentanen Ausführungsmodus, enthält.

Die ARM kennt mehrere Ausführungsmodi, die über bestimmte Ereignisse betreten werden und teilweise dem ausgeführten Code zusätzliche Privilegien einräumen. Im Einzelnen sind das:

  • User-Mode: normaler User-Code
  • Supervisor-Mode (SVC): privilegierte Betriebssystem-Tasks, Eintritt z. B. durch Aufruf eines Software-Interrupts(SWI)
  • Hypervisor-Mode (HYP): privilegierte Tasks zur Erfüllung von Hypervisor-Funktionen[9]
  • Interrupt-Mode (IRQ): Eintritt durch Auftreten eines äußeren Interrupt-Requests während der Befehlsverarbeitung
  • Fast-Interrupt-Mode (FIQ): Eintritt durch Auftreten eines äußeren Fast-Interrupt-Requests. Fast-Interrupts werden meist nur für besonders zeitkritische Ereignisse benutzt (sieheEchtzeitsysteme).
  • Memory-Abort (ABT): tritt auf, wenn eine Datenanforderung nicht erfüllt werden kann.
  • Undefined-Instruction-Exception (UND): Eintritt durch Auftreten einer unbekannten Instruktion. Wird z. B. zur Emulation einesGleitkomma-Coprozessorsverwendet.

r13,r14und das Statusregister werden für die Interrupt- und Exception-Modi gespiegelt (sogenannte Schattenregister), so dass Ausnahmebehandlungsroutinen sich nicht um die Sicherung des User-Stackpointers oder Link-Registers zu kümmern brauchen. Für die Fast Interrupts werden zusätzlichr8...r12gespiegelt und stehen so dem Programmierer einer Interrupt-Service-Routine direkt zur Verfügung, ohne dass er den Inhalt dieser Register vorher sichern müsste.

Befehlsbreite und Adressierungsarten

[Bearbeiten|Quelltext bearbeiten]

Der Load/Store-Befehl des ARM unterstützt die üblichen Adressierungsmodi. Bei der unmittelbaren Adressierung und der absoluten Adressierung gibt es jedoch einige Einschränkungen, die im Folgenden näher erklärt werden sollen:

Sämtliche Befehle im ARM-Befehlssatz sind 32 Bit lang. Dies bedeutet auf der einen Seite, dass jede Instruktion mit einem Speicherzugriff geladen werden kann, wodurch sich die Architektur der Pipeline und die Instruction Fetch-Unit vereinfachen. Auf der anderen Seite können 32-Bit-Adressen oder 32-Bit-Werte nicht in einem 32 Bit breiten Befehl angegeben werden, da dann kein Platz mehr für den eigentlichen Befehlscode bleibt. Stattdessen hilft man sich folgendermaßen:

  • Es können keine beliebigen 32-Bit-Werte direkt im Befehl codiert werden. Stattdessen werden für Direktwerte 8 Mantissen-Bits und 4 Shift-Bits angegeben, wobei der tatsächliche Shift-Wert der doppelte gespeicherte Wert ist, es können also Bitverschiebungen um 0, 2, 4, 6, 8,…, 26, 28 und 30 Stellen erfolgen. Dabei werden die Bits, die aus dem Register hinausgeschoben werden, auf der anderen Seite wieder hineingeschoben. Wird diese Technik z. B. auf den Wert 255 in den Mantissen-Bits angewendet, können die hexadezimalen Werte000000FF,000003FC,00000FF0,00003FC0,…0FF00000,3FC00000,FF000000,FC000003,F000000FundC000003Fdirekt kodiert werden.
  • Andere Werte können durch Kombination von arithmetischen Operationen (z. B. Addition, Subtraktion) erzeugt werden.
  • Alternativ können Werte auch im Speicher gehalten und vor dem eigentlichen Befehl in ein Register geladen werden.
  • Der (relative) Sprungbefehl enthält einen 24-Bit-Offset, so dass im Bereich von ±32MiBvon der aktuellen Stelle im Programm aus gesprungen werden kann (wobei der Programmzähler der aktuellen Instruktion um 8 Byte vorauseilt). Zusätzlich kann optional der aktuelle Programmzähler ins Link-Register kopiert werden (falls L-Bit gesetzt), damit wird aus dem Sprung ein Unterprogrammaufruf (die aufgerufene Funktion kann den Programmzähler vom Link-Register einfach mitMOV PC,LRins Programmzähler-Register zurückkopieren, um wieder ins aufrufende Programm zurückzukehren).
  • Bei den Load/Store-Befehlen kann ein 12-Bit-Offset auf eine Basisadresse addiert werden, die aus einem Register gelesen wird. Wird der Programmzähler als Basisregister verwendet, kann so ein Wert innerhalb von 4KiBab der aktuellen Stelle des Programms geladen werden. Damit lässt sich z. B. ein Sprung an eine beliebige 32-Bit-Adresse ausführen, indem die absolute Sprungadresse hinter dem Ladebefehl gespeichert wird und dann durch eine PC-relativen Ladebefehl mit Ziel Program-CounterLDR PC,[PC,#-4]angesprungen wird.
  • Alle Speicherstellen, die außerhalb der 4 KiB um die aktuelle Stelle im Programm liegen, können nur geladen werden, indem zuerst ihre Adresse in ein Register geladen wird und dieses in nachfolgenden Zugriffen als Basisregister verwendet wird.

Besonderheiten des Befehlssatzes

[Bearbeiten|Quelltext bearbeiten]

Der ARM-Befehlssatz enthält einige Besonderheiten, die zur Effizienz der Architektur beitragen:

  • Praktisch alle Befehle können bedingt ausgeführt werden („conditional execution “). Damit entfällt in vielen Standardsituationen die Notwendigkeit für Programmsprünge, z. B. in vielen If/Else-Abfragen (man vermeidet Programmsprünge, weil diese diePipelinedes Prozessors leeren, und dadurch Wartezyklen entstehen). Zum Kodieren der Bedingung werden die ersten 4 Bits eines jeden Befehles im Maschinencode bzw. ein Suffix imMnemonicverwendet.
Beispiel
CMPr0,r1;(setzt Bedingungsbits); "CMP" bedeutet: "CoMPare"
ADDGEr2,r2,r3;if r0 >= r1 then r2:= r2 + r3; "ADDGE" bedeutet: "ADD if Greater or Equal"
ADDLTr2,r2,r4;else r2:= r2 + r4; "ADDLT" bedeutet: "ADD if Less Than"
  • Der Bedingungs-Code1111stand zu Beginn für die ConditionNV(never), diese Befehle werden also nie ausgeführt. Diese Opcodes werden in neueren CPUs für spezielle Befehle wiePLDundBLXverwendet (die dann nicht mehr bedingt ausgeführt werden können), von der Benutzung beliebiger Opcodes mit KonditionNVfür NOPs wird daher abgeraten („deprecated “).
  • Wahlweise können die Statusbits als Folge des Befehls aktualisiert werden. Dies wird durch das SuffixSim Assemblercode gekennzeichnet und kann mit der bedingten Ausführung kombiniert werden.
Beispiel
CMPr0,r1;(setzt Bedingungsbits)
ADDGESr2,r4,r5;if r0 >= r1 then r2:= r4 + r5
BCSoverflow;verzweige bei Überlauf der Addition
  • Die ARM verfügt über einenBarrel-Shifterim B-Pfad der ALU; sämtliche Befehle, die mit dem zweiten Operanden arbeiten, erlauben die Angabe eines 4-bit breiten Shift- oder Roll-Faktors.
Beispiel
ADDr2,r3,r3,lsl#2;r2:= r3 + (r3 << 2)
;:= r3 + 4*r3
;:= 5*r3
  • Neuere ARM-CPUs kennenSIMD-Befehle.

Thumb-Befehlssatz

[Bearbeiten|Quelltext bearbeiten]

Um die Code-Dichte zu erhöhen, also den Speicherbedarf für eine bestimmte Funktion zu verringern, hat ARM Ltd. den Thumb-Befehlssatz entwickelt, der nur aus 16 Bit breiten Befehlen besteht. Obwohl man oft mehrAssembler-Befehle benötigt, um ein Programm zu schreiben, wird die Code-Größe in der Praxis um etwa 30 bis 40 Prozent reduziert. Aus 16-Bit-Speicherbausteinen werden Befehle in nur einem Speicherzyklus geladen, aus 32-Bit-Speicherbausteinen lädt ein ARM-Prozessor stets zwei Thumb-Instruktionen auf einmal.

Die geringere Programmgröße wird allerdings oft durch eine geringere Ausführungsgeschwindigkeit erkauft. Zum einen sind viele Thumb-Befehle weniger leistungsfähig als die entsprechenden ARM-Befehle (und es werden mehr Thumb-Anweisungen benötigt), zum anderen gibt es in diesem 16-Bit-Befehlssatz keine bedingte Befehlsausführung außer den bedingten Sprüngen. Daher treten mehr Programmsprünge auf, und die Pipeline wird öfter entleert. Zumindest wenn der Speicher mit 32 Bit angesprochen wird, ist der 16-Bit-Befehlssatz schon deshalb oft langsamer als der ARM-Befehlssatz. Der HerstellerNXPgibt in den Datenblättern seiner LPC2000-Controller einen Geschwindigkeitsverlust von 30 Prozent an.

ARM- und Thumbcode können miteinander vermischt werden. Häufig ist in großen Teilen eines Programmes die Ausführungsgeschwindigkeit sekundär. Es bietet sich an, für diese Programmteile Thumb-Anweisungen zu verwenden, aber die kritischen Bereiche mit ARM-Anweisungen zu implementieren. Diese Technik nennt sichThumb Interworking.

MitARMv6wurde der Thumb-Befehlssatz auf 32-Bit-Code erweitert undThumb-2genannt. Mit Thumb-2 kann 16-Bit- und 32-Bit-Code frei vermischt werden.[10]

Thumb ist nur auf der klassischen 32-Bit-ARM-Architektur (retronym A32 bzw. AArch32 bezeichnet) verfügbar, es wurde nicht auf ARM64 (bzw. AArch64) übernommen.[11]

Coprozessor-Befehle

[Bearbeiten|Quelltext bearbeiten]

Die ARM ist als Mikroprozessor-Kern in eingebetteten Systemen gedacht, in denen meist keineGleitkomma-Arithmetik benötigt wird. Der ARM wurde jedoch speziell im Hinblick auf Erweiterbarkeit um Coprozessoren entwickelt und besitzt ein eigenes Coprozessor-Interface und Befehle für optionale Coprozessoren.

Big.LITTLE-Konzept

[Bearbeiten|Quelltext bearbeiten]

Zusammen mit demCortex-A7 hat ARM das Big.LITTLE-Konzept eingeführt, das dazu dient, die mit 3,5DMIPS/MHz hohe Rechenleistung des Cortex-A15[12]mit der niedrigen Energieaufnahme des Cortex-A7 zu verbinden. Dabei werden beide Cores in Form von Clustern mit jeweils zwei bis vier Kernen auf einemSoCzusammengefasst. Da der Cortex-A7 aus Software-Sicht wie ein Cortex-A15 aussieht, wird der Cortex-A15-Cluster bei Aufgaben, die nicht die volle Rechenleistung benötigen, abgeschaltet und die weiteren Berechnungen durch den Cortex-A7 durchgeführt. Wenn mehr Rechenleistung benötigt wird, wird der Cortex-A15-Cluster wieder eingeschaltet und der Cortex-A7-Cluster stillgelegt.[13]

Nach Erscheinen der 64-Bit-CPUsCortex-A53 und A57 wurde das Big.LITTLE-Konzept auch auf diese übertragen. Gleichzeitig wurde es dahingehend erweitert, dass Tasks jetzt nicht nur clusterweise, sondern individuell von einer beliebigen CPU auf jede beliebige andere übertragen werden können.[14]

Das Konzept leidet jedoch an einigen Schwächen, so z. B. bei sprunghaften Laständerungen, die in hohen Latenzzeiten münden, oder durch fehlende Berücksichtigung des realen Energieverbrauchs der einzelnen CPUs.[14]

2017 führte Arm DynamIQ ein; eine DynamIQ Shared Unit (DSU) verwaltet mehrere CPU-Cores in einem Cluster mit gemeinsamem L3-Cache und gemeinsamer Anbindung nach außen.[15][16]Arm erweiterte dabei das Big.LITTLE-Konzept in mehreren Punkten:

  • in DynamIQ können bis zu 6 Cluster unterschiedlicher oder gleicher CPU-Kerne zusammenarbeiten, es können beliebige „Mischungen “angebunden werden
  • in einem Cluster können bis zu 8 CPU-Kerne enthalten sein, denen je Cluster ein gemeinsamer L3-Cache zur Verfügung steht
  • die Kerne sind mit geringerer Latenz an denCoreLinkgenannten Cache Coherent Interconnect (CCI) angekoppelt, alle Cluster können auf den Level-3-Cache zugreifen, Tasks können damit gleichzeitig auf mehrere Cluster verteilt werden.
  • Bis zu 24 Kerne können angeschlossen werden
  • Das Memoryinterface kann über 1 oder 2 je 128- oder 256-bit breite AMBA ACE oder AMBA CHI Ports angebunden werden
  • Bis zu 6 Hauptspeicherkanäle können angebunden werden
  • Die Clusterundeinzelne Kerne können mit unterschiedlichen Frequenzen und Spannung betrieben werden, was zu einer höheren Energieeffizienz führt
  • neben Cortex-A-CPU-Kernen können auch andere „Beschleuniger “angebunden werden

2021 stellte Arm zusammen mit den ersten ARMv9-CPU-Cores Cortex-A510, -A710 und -X2 eine neue DynamIQ Shared Unit vor,DSU-110genannt:[17][18]

  • Organisation in zwei bi-direktionale Ringe mit je vier Knoten
  • Der L3 ist in bis zu 8 Slices aufgeteilt, auf die parallel zugegriffen werden kann; Arm verspricht eine bis zu fünffache Bandbreite
  • Es können nun bis zu 16 MB gemeinsame L3 verwaltet werden
  • Unterstützung von Memory Tagged Extensions (MTE)
  • Der ebenfalls neue CoreLink CI-700 kann nun über 1, 2 oder 4 je 256-bit breite AMBA CHI Ports angebunden werden

Die DynamIQ-CCI-Einheiten werden für SoCs ausschließlich zusammen mit den Arm-eigenen 64-Bit-Kernen A55 und A510, A75 bis A710 und X1/X2 angeboten.

Server Interconnect

[Bearbeiten|Quelltext bearbeiten]

2014 stellte Arm eine Familie von Systemlösungen für Server-CPUs vor, dieCCN-500Interconnect Serie, die je nach Modell zwischen 4 und 12 Cluster mit je 4 CPU-Kernen in einem koherenten Netzwerk vereinen konnte; es waren 2 bis 4 Speicherkanäle möglich, der gemeinsame L3-Cache umfasste bis zu 8 bzw. bis zu 32 MB.[19]

2016 stellte Arm den Nachfolger, denCMN-600Interconnect vor, der bis zu 32 Cluster mit je 4 CPU-Kernen in einem koherenten Mesh-Netzwerk mit 64 (8 × 8) Knoten vereinen kann. Es sind bis zu 8 Speicherkanäle und 4 CCIX-Ports (seit Revision 2) möglich und der gemeinsame L3-Cache kann bis zu 128 MB umfassen.[20]

2021 wurde von Arm der InterconnectCMN-700vorgestellt. In einem kohärenten Mesh-Netzwerk mit 144 (12 × 12) Knoten können nun 256 CPU-Cores, 40 Speichercontroller (DRAM, HBM) und 32 CCIX-Ports eingebunden werden und der gemeinsame L3-Cache kann bis zu 512 MB umfassen.[21]

ARM 1 CPU in einem Acorn ARM Evaluation System
Dieeines ARM610 Mikroprozessors.

Die Architektur von ARM-Prozessoren erfuhr seit 1985 zahlreiche Veränderungen, zum Beispiel bei der Zahl der Register, der Größe des Adressraumes und dem Umfang des Befehlssatzes. Sie wird daher in Versionen unterteilt, abgekürzt mit ARMv[Versionsnummer]. Beginnend mit ARMv2 wurden die Architekturversionen in mehr als nur einem Prozessor implementiert.

Seit dem ARMv6 werden die sogenanntenCortex-Architekturenspeziell für besondere Anwendungen entwickelt:

  • Cortex Asteht fürApplication(betriebssystembasierte Anwendungen),
  • Cortex Msteht fürMicrocontroller(Cores für Mikrocontroller), und
  • Cortex Rsteht fürRealtime(Echtzeitanwendungen).

Seit 2018 bietet ARM dieNeoverse-Familiefür Serverlösungen an. 2020 wurde die Cortex-A-Familie um Cortex X erweitert. Diese Cores wurden auf Leistung optimiert.

Gene-
ration
Architektur / Familie(n) Release-
Jahr
üblicher CPU-
Takt (MHz)
Befehlsdurchsatz
(DMIPS/MHz)
ARMv1 ARM1 1985 0004
ARMv2 ARM2, ARM3 1986, 1989 0008...25 0,5
ARMv3 ARM6, ARM7 1991, 1993 0012...40 0,89
ARMv4 ARM7TDMI, ARM8,
StrongARM
ARM9TDMI
1995,
1997
0016,8...75
0203...206
0180
0,9
ARMv5 ARM7EJ, ARM9E, ARM10E
2002 0104...369
0133...1250
1,25
ARMv6 ARM11 (1176, 11 MPCore, 1136, 1156)
Arm Cortex-M(M0, M0+, M1)
2002
?
0427.[22]..1000+[23]
bis 200[24]
0,60.[22].1,54[25]
0,84[0]...0,94[26]
Armv7 Arm Cortex-A(A8, A9, A5, A15, A7, A12, A17)
Arm Cortex-M(M3,M4,M7)
Arm Cortex-R(R4, R5, R7, R8)
2004
2005
2011
bis 2500.[27]
?
?
1,58.[28]3,50[29]
1,25[00]...2,14[26]
?
Armv8 Arm Cortex-A (A32, A53, A57, A72, A35, A73, A55, A75, A76, A77, A78, X1)[30]
Arm Cortex-M (M23, M33)
Arm Cortex-R (R52)
Arm Neoverse (E1, N1, V1)
2012–2020
?
2016
2018–2021
1200...3000.[31]
?
?
...3300
2,3.[32]4,1[33]
?
?
?
ARMv9 Arm Cortex-A (A510, A710, X2)
Arm Neoverse (N2)
2021
2021

Die ersten Versionen eines ARM-Prozessors (ARMv1) wurden 1985 als Zweitprozessor imARM Development Systemfür denBBC Mastereingesetzt.

Die ARMv2-Architektur umfasst zwei Familien: ARM2 und ARM3.

Der ARM2 ist ein von dem englischen UnternehmenAcorn Computers Ltd.entwickelter32-Bit-RISC-Prozessor.Dieser wurde 1986 veröffentlicht und ab 1987 imAcorn Archimedeseingesetzt. Beim Standardtakt von 8MHzwurden für damalige Verhältnisse unglaubliche 4MIPSerreicht. 1991 erschien der ARM250, der ebenfalls auf dem ARM2 basierte, aber nun mit 12 MHz getaktet war und 7 MIPS erreichte. Außerdem wurden eineMMU-Einheit sowie ein Grafik- und IO-Prozessor integriert. Eingesetzt wurde diese CPU nur in den Archimedes-Modellen A3010, A3020 und A4000.

Der ARM3 ist ebenfalls ein 32-Bit-RISC-Prozessor, der von Acorn Computers Ltd. entwickelt wurde. Er wurde 1989 veröffentlicht und in den Archimedes-Modellen A540, A5000 und A4 eingesetzt. Bei diesem Prozessor hat Acorn erstmals einenCachemit 4 KiB integriert. Mit einer Taktfrequenz von 25MHzerreicht der ARM3 12MIPS.

Der ARM6 ist ein von der mittlerweile gegründetenARM Limited1991 veröffentlichter32-BitRISC-Prozessor,der als CPU beispielsweise imApple Newtonoder AcornsRisc PCeingesetzt wurde. Der CPU-Takt betrug 12–33 MHz.

32-bit ARM 60 RISC in einer3DO-SpielkonsoleFZ-10 (1993)

Der ARM7TDMI war das Low-End-Modell der ARM-Familie und wurde vor allem als Komponente inSoCsfür Mobiltelefone und andere portable Kommunikations- oder Multimediageräte verwendet, darunter derGame Boy Advance,Nintendo DS(als Subprozessor) undNintendo 3DS(ebenso als Subprozessor). Die Kürzel im Modellnamen stehen fürThumb Instruction Set(Programmspeichersparender 16-Bit-Modus des 32-Bit-Kernes),Debug Port, 64-Bit-ResultMultiplier und EmbeddedICEModul.

Der ARM7TDMI hat eine dreistufigePipelineund einen gemeinsamen Bus für Instruktionen und Daten.

Der gemeinsam mitDECentwickelteARM StrongARMwar die erste Abspaltung der Arm-Architektur, die 1995 alsSA-110imNewton 2000durch einen Stromsparmodus für lange Akkulaufzeiten sorgte. Der Nachfolger SA-1100 (1997) war mit einer LCD-Schnittstelle, einer MCP-Audio/Touchscreen-Schnittstelle, PCMCIA-Unterstützung, IrDA, USB und DMA-Controller eines der erstenSystem-on-a-Chip.

Die Architekturversion 5TE wurde von ARM in den Prozessormodellen ARM7EJ, ARM9E und ARM10E implementiert. ARM9 ist eine Weiterentwicklung der StrongARM- und ARM8-Prozessoren. Der wesentliche Unterschied des ARM9 gegenüber dem ARM7 ist je ein getrennter Bus für Instruktionen und Daten (Harvard-Architektur). Meist werden diese an separateCachesfür Daten und Instruktionen angeschlossen. Außerdem hat der ARM9 eine fünfstufige Pipeline und kann so höhere Taktraten erreichen und weist bessere CPI-Werte (Cycles per Instruction) auf. Wird der ARM9 ohne Caches an einem externen Speicher mit nur einem Datenbus betrieben, schrumpft der Geschwindigkeitsvorteil gegenüber der ARM7-Architektur wegen häufiger Pipeline-Stalls mit einer höheren Latenz durch die längere Pipeline. Ohne Cache kann in einem solchen ungünstigen Szenario ein ARM7 aufgrund seiner kürzeren Pipeline trotz eines deutlich niedrigeren Taktes schneller sein. Allerdings sollte dieser Fall in realen Systemen nicht auftreten, da ein ARM9 teurer ist und nur wegen seiner besseren Performance ausgewählt wird. Kommt es eher auf die Kosten an, so spart man sinnvollerweise nicht am Cache, sondern verwendet einen ARM7.

Intelstellte ab dem Jahr 2002 auf Basis der ARMv5TE die Prozessoren derXScale-Reihe (802xx, PXA25x, XA263, PXA26x, PXA27x, PXA3xx) vor, die mit einer Taktfrequenz bis zu 1250 MHz in viele mobile Geräte (Palm Tungsten,SonyClié) Eingang fanden. 2006 wurde die XScale-Entwicklung an dieMarvell Technology Groupverkauft. Im Juni 2008 stellte Marvell den auf Basis der ARMv5TE entwickeltenSheeva-Mikroprozessor vor. Dieser ist als Hauptprozessor für die Integration in die hauseigenenEin-Chip-Systemevorgesehen.[34]Ein von Marvell entwickeltes SoC mitSheeva-CPU bildet die Basis für den ersten zur Marktreife gebrachten „Plug Computer“.Der sogenannteSheevaPlugwurde im Jahr 2009 vorgestellt.

Mit ARMv6, angekündigt im Oktober 2001, kamen SIMD-Befehle hinzu, Multiprozessorunterstützung und eine neue Cache-Architektur. Implementierungen dieser Architekturversion sind die ARM11-Familie, die sich auch durch eine verbesserte Pipeline von den Familien ARM9 und ARM10 absetzte, und die kleineren Prozessorkerne für MikrocontrollerArm Cortex-M0, Arm Cortex-M0+ und Arm Cortex-M1.

Mit ARMv6 wurde auch der Thumb-Befehlssatz auf 32-Bit erweitert. Diese nunThumb-2genannte Erweiterung erlaubt die freie Verwendung von 16-Bit- und 32-Bit-Instruktionen im Code und ist auf 32-Bit-ARM (retronym AArch32) seit ARMv6T2 verfügbar, allerdings ist beim ARMv6-M nur ein eingeschränkter 32-Bit-Befehlssatz in Thumb-2 implementiert.[10]

ARM11-Kerne – der erste, ARM1136, wurde Lizenznehmern im Oktober 2002 angeboten – wurden in Smartphones verbaut, unter anderem von Apple und Nokia.

ARMv7-A: Nvidia T30L

Es wird eineSIMD-Einheit eingeführt, die mit 32 Registern von 128 Bit Breite arbeitet, genanntNEON,primär für Multimediaverarbeitung gedacht, die aber wie konkurrierende SIMD-Einheiten (AltiVec/VSX in der POWER-Architektur oderSSE/AVXin der Intel-Architektur) vielfältige Arithmetik und Vektorbefehle ausführen kann.

Ab der Armv7-Architektur werden die sie implementierenden Prozessorkerne drei Anwendungsfeldern zugeteilt:

  • Arm Cortex-M:Der BuchstabeMsteht für die BezeichnungenglischMicrocontroller(dt.Mikrocontrolleranwendungen). Typische Anwendung in nicht zeitkritischen steuer- und regeltechnischen Aufgaben. Cortex-M Mikrocontroller sind von vielen Herstellern verfügbar und zeichnen sich durch ein umfangreiches Angebot an Ein- und Ausgabeschnittstellen aus.

Spätere ARMv7-Kerne, etwaCortex-A15undCortex-A7,bieten zusätzlich zur klassischen 32-Bit-MMUmit 2Seitentabelleneine neue „Extended VMSAv7 MMU “mitLarge Physical Address Extensions(LPAE). Damit arbeitet die MMU mit drei Seitentabellen, um mit normalerweise 40 Bits bis zu 1 TB Speicher adressieren zu können.[35][36]

HiSiliconHi6250

Die achte Version der Arm-Architektur wurde im Oktober 2011 vorgestellt. Mit Armv8-A wurde erstmals von ARM eine64-Bit-Architekturfür die Datenverarbeitung und Speicheradressierung realisiert. Die Kompatibilität zur vorhandenen 32-Bit-Software sollte dabei aufrechterhalten werden. Armv8 ist abwärtskompatibel bis hin zu ARMv5. Es existieren zwei unabhängige Ausführungsmodi: AArch32 für die Verarbeitung von 32-Bit-Software und AArch64 für die Verarbeitung von 64-Bit-Software. Im AArch64-Modus kommt ein neuer Befehlssatz – A64 genannt – zum Einsatz, während der AArch32-Modus den herkömmlichen ARM-Befehlssatz unterstützt.[37][38]Mit ARMv8-A machte ARM VFPv3/v4 und SIMD (NEON) obligatorisch und ergänzte Kryptographie-Instruktionen für AES und SHA-1/SHA-256.

Im Oktober 2012 stellte ARM mit dem Cortex-A53 und Cortex-A57 die ersten Prozessoren vor, die Armv8 implementieren.[39]Die erste Fremdimplementierung vom Armv8 erfolgte für die CPU-Kerne desX-Gene-SoCder Firma Applied Micro Circuits Corporation (AMCC).X-Genewurde im Juni 2013 vorgestellt und wird vom Hersteller als „Server-on-a-Chip “-Lösung vermarktet.[3]Das erste Mobilgerät mit einem auf Armv8-basierenden SoC ist das im September 2013 vorgestellteiPhone 5s.Das verbaute SoC integriert zwei von Apple entworfene CPU-Kerne namensCyclone.[4]Qualcomm entwickelte auf der Grundlage von Armv8 die CPU-ArchitekturKryo.Ein SoC mit solchen CPU-Kernen wurden erstmals 2015 vorgestellt. Qualcomm verspricht fürKryoeine höhere Leistung und Energieeffizienz gegenüber dem Arm Cortex-A57.[40]

ARM entwickelte mehrere Erweiterungen für Armv8-A: Armv8.1-A (Dezember 2014),[41]Armv8.2-A (Januar 2016),[42]Armv8.3-A (Oktober 2016),[43]Armv8.4-A (November 2017),[44]Armv8.5-A (September 2018),[45]Armv8.6-A (August 2019)[46]und Armv8.7-A (Dezember 2020).[47]

Die neunte Version der Arm-Architektur wurde im März 2021 vorgestellt. Mit Armv9-A setzt Arm auf der Basis von Armv8.5-A auf, die Erweiterungen für Memory Tagging (MTE) und Transactional Memory (TME) werden Pflicht, ebenso Scalable Vector in der Version 2 (SVE2) bei Erhalt der Kompatibilität zu NEON. Neu ist auch das Sicherheitskonzept Realms. Die Kompatibilität zur vorhandenen AArch32-Software wurde auf Applikationsebene beschränkt (EL0) und ist nur noch optional. So wie Armv9-A eine volle Implementierung von Armv8.5-A voraussetzt, wird Armv9.1-A nach einer vollen Implementierung von Armv8.6-A und Armv9.2-A nach einer von Armv8.7-A verlangen.[48][49]

Erweiterungen für ARM-Kerne

[Bearbeiten|Quelltext bearbeiten]

ARM Ltd. verkauft neben den ARM-CPU-Kernen auch Erweiterungen als synthetisierbare Makrozellen für denSoC-Entwurf, unter anderemMemory Management Units,Floating-Point-Coprozessoren sowieSignalprozessor-Erweiterungen (Piccolo).

Folgende Unternehmen haben die Arm-Architektur vonARM Ltd.lizenziert:

  • Steve Furber:ARM System-on-Chip Architecture.Addison-Wesley, New York 2000,ISBN 0-201-67519-6.
Commons:ARM microprocessors– Sammlung von Bildern, Videos und Audiodateien
  1. Dan Grabham: From a small Acorn to 37 billion chips: ARM’s ascent to tech superpowerin Techradar.
  2. BBC Acorn User Januar 1991,Apple embraces Acorn with 'open' ARM(Textarchiv – Internet Archive).
  3. abCharlie Demerjian:AMCC X-Gene 64-bit silicon spotted in the wild.SemiAccurate,abgerufen am 14. Juni 2013.
  4. abAnand Lal Shimpi:Apple Announces A7, World’s First 64-bit Smartphone SoC.Meldung bei Anandtech.com vom 10. September 2013.
  5. heise online:Apple M1 in ARM-Macs: weitere technische Details und erste Benchmarks analysiert.Abgerufen am 17. November 2020.
  6. infocenter.arm.com
  7. anandtech.com
  8. nextplatform.com
  9. ARM Information Center.Abgerufen am 1. März 2018.
  10. abThumb-2 technology.In:Arm Developer.Arm Limited,abgerufen am 5. November 2022(englisch).
  11. Raymond Chen:The AArch64 processor (aka arm64), part 1: Introduction.(Blog) In:The Old New Thing (DevBlog).Microsoft, 26. Juli 2022,abgerufen am 5. November 2022(englisch): „The 64-bit version of the ARM architecture is formally known as AArch64. It is the 64-bit version of classic 32-bit ARM, which has been retroactively renamed AArch32. Even though the architecture formally goes by the name AArch64, many people (including Windows) call it arm64. Even more confusing, the instruction set is called A64. (The 32-bit ARM instruction sets have also been retroactively renamed: Classic ARM is now called A32, and Thumb-2 is now called T32.)… No more Thumb mode – AArch64 is an extension of the classic ARM instruction set, not an extension of Thumb-2. “
  12. Frank Riemenschneider:Cortex-A15 zielt auf Kommunikations- und Server-Markt.In:elektroniknet.de.10. März 2011, archiviert vomOriginal(nicht mehr online verfügbar) am9. Mai 2015;abgerufen am 8. August 2013.
  13. Frank Riemenschneider:ARM paart Cortex-A7 und Cortex-A15.In:elektroniknet.de.13. Juni 2012, archiviert vomOriginal(nicht mehr online verfügbar) am23. September 2015;abgerufen am 8. August 2013.
  14. abFrank Riemenschneider:Qualcomms Snapdragon-810 trotz ARM besser als ARM.In:elektroniknet.de.Archiviert vomOriginal(nicht mehr online verfügbar) am23. September 2015;abgerufen am 3. März 2015.
  15. Matt Humrick:Exploring DynamIQ and ARM’s New CPUs: Cortex-A75, Cortex-A55.Abgerufen am 21. Dezember 2022.
  16. Documentation – Arm Developer.Abgerufen am 21. Dezember 2022.
  17. Andrei Frumusanu:Arm Announces Mobile Armv9 CPU Microarchitectures: Cortex-X2, Cortex-A710 & Cortex-A510.Abgerufen am 21. Dezember 2022.
  18. Documentation – Arm Developer.Abgerufen am 21. Dezember 2022.
  19. ARM intros two new CCN ‘uncore’ products for data center SoCs.Abgerufen am 21. Dezember 2022.
  20. Johan De Gelas:New ARM IP Launched: CMN-600 Interconnect for 128 Cores and DMC-620, an 8Ch DDR4 IMC.Abgerufen am 21. Dezember 2022.
  21. Andrei Frumusanu:Arm Announces Neoverse V1, N2 Platforms & CPUs, CMN-700 Mesh: More Performance, More Cores, More Flexibility.Abgerufen am 21. Dezember 2022.
  22. abARM:ARM11 Processor Family.
  23. ARM:ARM 1176 Processor.
  24. Cortex-M1 Processorbei ARM.com, abgerufen am 23. Juli 2012.
  25. ARM:ARM 1156 Processor
  26. abStephen Barret:Cortex-M7 Launches: Embedded, IoT and WearablesIn:AnandTech.23. September 2014.
  27. Preetam:MediaTek To Announce 2.5 GHz Octa-Core MT6595 Chipset, Scores 43,000 in AnTuTu.In:NEXTPOWERUP.14. Juli 2014, archiviert vomOriginal(nicht mehr online verfügbar) am8. September 2015;abgerufen am 28. August 2015(englisch).
  28. Atmel:SMART SAMA5 ARM Cortex-A5 MPUs
  29. Texas Instruments:KeyStone II – ARM Cortex-A15 – CorePac Overview
  30. ARM Launches Cortex-A50 Series, the World’s Most Energy-Efficient 64-bit Processors.In:ARM Ltd. Newsroom.30. Oktober 2012,abgerufen am 29. Oktober 2013.
  31. Sylvie Barak:ARM Announces ARMv8A-Based Cortex-A72, 16nm FF+ Process, Mali-T880 GPU.In:tom's Hardware.3. Februar 2015,abgerufen am 28. August 2015.
  32. Nermin Hajdarbegovic:ARM: Shift to 64-bit SoCs acceleratingIn:fudzilla.com,24. April 2014.
  33. Frank Riemenschneider:ARM enthüllt neue 64-bit-CoresIn:elektroniknet.de,30. Oktober 2012.
  34. Marvell:Marvell Sheeva Embedded CPU Technology Set to Drive Next Generation of Consumer, Mobile and Enterprise Applications,Pressemitteilung vom 2. Juni 2008.
  35. Linus Walleij (linusw):ARM32 Page Tables.(Blog) In:people.kernel.org.24. Oktober 2020,abgerufen am 15. August 2023(englisch).
  36. Principles of ARM Memory Maps, White Paper, Revision C; ARM DEN 0001C.(PDF; 278KB) ARM Limited, 19. Oktober 2012,abgerufen am 15. August 2023(englisch).
  37. ARM:ARM Discloses Technical Details Of The Next Version Of The ARM Architecture,Pressemitteilung vom 27. Oktober 2011.
  38. Andreas Stiller:ARM-Revolution im Rechenzentrum: Wie es ARM-Prozessoren in Server schafften.In:heise.de.22. Dezember 2021,abgerufen am 7. September 2023.
  39. Frank Riemenschneider:ARM enthüllt neue 64-bit-Cores.In:Elektroniknet.de,30. Oktober 2012.(Mementovom 4. März 2016 imInternet Archive)
  40. Snapdragon 820 and Kryo CPU: heterogeneous computing and the role of custom compute.In:qualcomm.com,2. September 2015 (englisch).
  41. The ARMv8-A architecture and its ongoing development
  42. Armv8-A architecture evolution
  43. Armv8-A architecture: 2016 additions
  44. Introducing 2017’s extensions to the Arm Architecture
  45. Arm A-Profile Architecture Developments 2018: Armv8.5-A
  46. BFloat16 extensions for Armv8-A.In:community.arm.com.Abgerufen am 30. August 2019(englisch).
  47. Release notes for the A64 Instruction Set Architecture for Armv8.7-A 2020-12.In:developer.arm.com.Abgerufen am 5. April 2021(englisch).
  48. A-Profile Architectures.31. März 2021,abgerufen am 5. April 2021.
  49. Arm Architecture Reference Manual Supplement Armv9.25. Mai 2021,abgerufen am 25. Mai 2021.
  50. AMD to License ARM for Future Opteron Server Chips
  51. Abner Li:Arm reportedly changing licensing model to prohibit custom GPUs and TPUs, could impact Google Tensor.In:9to5Google.29. Oktober 2022,abgerufen am 8. März 2023(amerikanisches Englisch).
  52. Frank Riemenschneider:XMC1000: Peripheriewunder mit Cortex-M0.In:elektroniknet.de.8. Januar 2013,abgerufen am 8. August 2013.
  53. Microsoft kauft ARM-Lizenz
  54. Nvidia kauft ARM-Lizenz
  55. Die "Hummingbird"genannte Implementierung der Cortex-A8-Architektur kommt bspw. inGalaxy-Smartphoneszum Einsatz:Smartphone-Prozessor "Hummingbird" von Samsung mit 1 GHzGolem.deam 27. Juli 2009.
  56. Betroffen sind nur Cortex-A15 Cortex-A57 und Cortex-A72 lt.https://developer.arm.com/support/security-update