Maschinensprache
EineMaschinensprache,wie sie beiMaschinencodebzw.nativem Codeverwendet wird, ist eineProgrammiersprache,bei der dieInstruktionen,die vomProzessorausgeführt werden sollen, als formale Sprachelemente festgelegt sind. Aufgrund ihrer Nähe zurHardwarewird sie auch verallgemeinernd alsdie„Programmiersprache eines Computers “bezeichnet.[1]Umfang undSyntaxder Maschinenbefehle sind imBefehlssatzdefiniert und abhängig vom Prozessortyp. Maschinensprache wird meistens alsBinärcodeoder vereinfacht mithilfe vonHexadezimalzahlendargestellt.
EinMaschinenbefehlist hierbei eine Anweisung an den Prozessor, eine Operation durchzuführen, beispielsweise eine Addition oder einen Wertevergleich. Jede funktionelle Leistung eines Prozessors ist daher Ergebnis der Ausführung von Maschinencode, eines in Maschinensprache vorliegenden Programms.
Programme in Maschinensprache werden üblicherweise nicht vomProgrammiererdirekt erzeugt, sondern unter Nutzung einerhöheren Programmierspracheoder einerAssemblersprache,wobei erst mithilfe einesCompilersbzw.Assemblersausführbarer Maschinencode entsteht. Wird von „Programmierung in Maschinensprache “gesprochen, ist damit manchmal fälschlicherweise die Programmierung in Assemblersprache gemeint. Bei der Ausführung durchInterpreterwerden dagegen die Maschinenbefehlebeim Programmstartoder während der Laufzeit erzeugt.
Manchmal werden Ausdrücke wie „Maschinencode, Maschinensprache, Binärcode, nativer Code, Programmcode “synonym verwendet.[2]Sie können jedoch zwei unterschiedliche Bedeutungen haben:
- Typisierende Bezeichnung des verwendetenCodesals ‚Syntaxbestimmung‘. Beispiel: Interner Binärcode, in dem die Daten in einer Zentraleinheit dargestellt werden.
- Die für ein ‚bestimmtes Programm‘ vorliegenden Anweisungen. Beispiel „Binärcode (für Programm ABC) “, der vom Computer direkt ausgeführt werden kann.
Maschinenprogramm
BearbeitenMaschinenprogramme finden in allen Geräten mit einemProzessorVerwendung, also vonGroßrechnernüberPersonal ComputerundSmartphonesbis hin zueingebetteten (embedded) Systemenin modernen Waschmaschinen, Radios oder Steuerungen im Kraftfahrzeug fürABSoderAirbag.Bei PCs sind sie üblicherweise inausführbaren Dateienenthalten.
Ausführbare Dateien findet man beiWindowsin Dateien unter derDateinamenserweiterung„.exe “.Unter vielen anderen Betriebssystemen werden ausführbare Dateien auch ohne Dateiendung und in anderen Formaten geführt. Sie werden teils anders bezeichnet, z. B. unterz/OSalsLademodul.Bei vieleneingebetteten SystemenoderMikrocontrollernbefinden sich bestimmte Maschinenprogramme permanent im ROM, z. B. einBootloader.
Maschinenprogramme können von Menschen mithilfe einesHex-Editorsoder einesMaschinencode-Monitorsbetrachtet, prinzipiell auch erstellt und verändert werden. In der Praxis erfolgt die Herstellung eines Maschinenprogrammes jedoch mithilfe einesAssemblersoderCompilersunter Verwendung vonQuelltextder jeweiligenProgrammiersprache.Maschinencode kann durch einenDisassemblerwieder in Assemblerformat rückübersetzt werden, die Umwandlung in einehöhere Programmiersprachedurch einenDecompilerunterliegt jedoch starken Einschränkungen.
Unterschiede zur Assemblersprache
BearbeitenDas Programm imMaschinencodebesteht aus einer Folge vonBytes,die sowohl Befehle als auch Daten repräsentieren. Da dieser Code für den Menschen schwer lesbar ist, werden in der Assemblersprache die Befehle durch besser verständliche Abkürzungen, sogenannteMnemonics,dargestellt. Dabei können der Operationscode, Quell- und Zielfelder sowie andere Angaben in den Befehlen mit symbolischen Bezeichnern (wie MOVE, PLZ, LAENGE) notiert werden, ggf. ergänzt um numerische Zahlenwerte, z. B. für eine individuelle Längenangabe, Registernummern usw.
- Dateiformat
- Ein Assemblerprogramm liegt, wie beiQuelltextenüblich, meist alsTextdateivor, während das Maschinenprogramm in der Regel alsBinärdateigespeichert ist.
- Anweisungen
- Das Programmieren im Textformat mit anschließender Übersetzung in den Maschinencode durch einen Assembler gestattet dem Programmierer eine weit schnellere und einfachere Programmerstellung als das Codieren im Maschinencode. In der Regel entspricht einem Assemblerbefehl genau ein Befehl im Maschinencode außer beiMakroassemblern,die aus einer Anweisung mehrere Maschinenbefehle generieren können.
- Zeichenformate
- Gängige Assembler erlauben es dem Programmierer, Zeichen und Zahlen in unterschiedlichen Codeformaten (Text, dezimal, Hexadezimal, oktal, binär) zu codieren, und stellen diese im Maschinenbefehl in einem der Anweisung entsprechenden Format ein. Beispiel: Die Quelltextangaben ‚A‘ oder ‚X'C1'‘ oder ‚B'11000001'‘ (imEBCDIC-Code) bedeuten dasselbe und werden im Maschinencode zu X'C1' – was bei Befehlen für duale Operationen dem Wert +193, bei Zeichenoperationen dem Zeichen 'A' entspricht.
- Datendeklaration
- Ein Assembler bietet dem Programmierer die Möglichkeit,Datenfelderals solche zu kennzeichnen und zu benennen, sie in verschiedenen Formaten zu deklarieren und sie mit symbolischen Namen zu versehen. Im erzeugten Maschinencode wird gemäß diesen Angaben Speicherplatz reserviert und (beiKonstanten) mit Inhalt vorbelegt. In den erzeugten Maschinenbefehlen wird die symbolische Adresse durch die numerische Adresse ersetzt und die Länge der definierten Felder eingesetzt.
- Adressierung
- Ein Assembler ermöglicht es, die Speicherorte für Daten und Befehle symbolisch zu benennen, sodass dem Programmierer deren numerische Adresse nicht bekannt sein muss. In der Maschinensprache sind Speicheradressen direkt angegeben. Selbst bei einer kleinen Änderung des Programms würden sich die Adressen aller nachfolgenden Programmteile verschieben, was (bei Programmierung in Maschinensprache) eine Anpassung all dieser Adressen erforderlich machen würde. Durch die symbolische Adressierung sind in der Assemblersprache auchUnterprogrammeaufrufbar, deren tatsächliche Adresse im Maschinencode erst vom Assembler oder einemLinkereingesetzt wird.
- Programmumfang
- Ein Assemblerprogramm bezieht sich normalerweise auf eine (1) definierte Aufgabenstellung und ist zur Assemblierungszeit von anderen Programmen unabhängig. Durch Techniken wie das‚Linken‘können je nach Entwicklungsplattform die Ergebnisse mehrerer Assemblierungen (z. B.Objektmodulegenannt)‚ zusammengefasst werden, die als Gesamtheit das Maschinenprogramm ergeben.
- Dokumentation
- Ein Assembler ermöglicht es, einem Programm Kommentare und weitergehende Dokumentation hinzuzufügen. In das Maschinenprogramm werden diese Quellcodeteile in der Regel nicht übernommen.
Die meisten der vorgenannten, zur Assemblersprache genannten Aspekte gelten in ähnlicher Weise auch fürhöhere Programmiersprachen– wobei diese sich gegenüber der Assemblersprache durch weitere (Leistungs-)Merkmale unterscheiden.
Programmerstellung
BearbeitenIntern ist jeder Befehl der Maschinensprache durch einen oder mehrere Zahlenwerte kodiert. Diese Zahlenwerte bestehen aus demOpcode,der die Art des Befehls festlegt, eventuell gefolgt von einem oder mehreren Bytes an Daten zu diesem Befehl. Eine sinnvolle Folge von solchen Zahlencodes im Hauptspeicher, bzw. als Datei gespeichert, bildet demnach ein Programm. Es gibt nun verschiedene Arten, solche Programme zu erstellen:
- Direkte Eingabe des Binärcodes (äußerst umständlich und höchst fehleranfällig, seit den 1950er Jahren unüblich).
- Über einenHex-Editorden Zahlen-Code inOpcodeszu schreiben (fehleranfällig).
- Mit einemAssembler:Assemblersprachenformulieren die Prozessorbefehle des Maschinencodes als Mnemonics in einer einfachen Syntax. DieserQuelltextwird danach vom Assembler in den Maschinencode konvertiert.
- Ein Programm wird in einerHochsprachegeschrieben, danach von einemCompilerin Maschinencode übersetzt (kompiliert). In einem Zwischenschritt wird dabei häufig zuerstObjektcodeerzeugt.
- Alternativ können Programme in einer Hochsprache auch – entweder nach Kompilierung in einenZwischencodeoder direkt – durch einenInterpreterabgearbeitet werden. Ein Beispiel hierfür ist die ProgrammierspracheJava,deren Zwischencode (auchBytecodegenannt) von einem Interpreter ausgeführt wird. Dies geschieht für den Benutzer transparent, wenn zum Beispiel ein Applet imWebbrowserausgeführt wird. Neben Java werden auch sämtliche.NET-Sprachen, wie beispielsweiseC#,in einen Zwischencode (englisch Intermediate Language) übersetzt, welcher anschließend zur Laufzeit innerhalb derCLRvon einemJIT-Compilerin die entsprechende Maschinensprache übersetzt wird.
- Bei derInstallationvonSoftware,einschließlich des Betriebssystems, liegt diese oft bereits in Maschinencode für die jeweilige Plattform vor. Dies erspart dem Nutzer die Kompilierung des Programms.
Beispiel
BearbeitenProgrammiersprache C
BearbeitenIm folgenden Quelltext in der höherenProgrammiersprache Cwird die Summe der Zahlen 2 und 3 berechnet und das Ergebnis zurückgegeben:
intmain(){
inta=2;
intb=3;
intc=a+b;
returnc;
}
Ein solches Programm, würde es für einenx86-Prozessorkompiliert, könnte folgenden Maschinencode ergeben:
Maschinencode (hexadezimal) |
zugehöriger Assemblercode | zugehöriger C-Code | Erläuterung |
---|---|---|---|
55 48 89 E5 |
pushrbp
|
intmain(){
|
Sichere Register RBP auf demStackund setze RBP auf den Wert von Register RSP, dem Stackpointer (gehört nicht zur eigentlichen Berechnung). Diese Vorbereitung ist notwendig, um die Werte der Variablena,bundcauf dem Stack speichern zu können. |
C7 45 FC 02 | movDWORDPTR[rbp-4],2
|
inta=2;
|
Setze Variablea,die durch Register RBP adressiert wird, auf den Wert 2. |
C7 45 F8 03 | movDWORDPTR[rbp-8],3
|
intb=3;
|
Setze Variableb,die durch Register RBP adressiert wird, auf den Wert 3. |
8B 45 F8 8B 55 FC 01 D0 89 45 F4 |
moveax,DWORDPTR[rbp-8]
|
intc=a+b;
|
Setze Register EAX auf den Wert von Variableb. Setze Register EDX auf den Wert von Variablea. |
8B 45 F4 | moveax,DWORDPTR[rbp-12]
|
returnc;
|
Setze Register EAX auf den Wert von Variablec.Weil Register EAX diesen Wert bereits enthält, könnte diese Anweisung in einem optimierten Programm entfallen. |
5D C3 |
poprbp
|
}
|
Setze RBP wieder auf seinen ursprünglichen Wert. Springe zurück an die Stelle des Aufrufs vonmain.Register EAX enthält den Rückgabewert. |
Ein Compiler könnte daraus zusammen mit weiteren notwendigen Informationen eineausführbare Dateierzeugen. Zur Ausführung wird der Maschinencode vomLaderdes Betriebssystems in den Arbeitsspeicher geladen. Anschließend ruft dieLaufzeitumgebungdie Funktionmain()auf und die CPU beginnt mit der Abarbeitung der Maschinenbefehle.
Maschinencode bei IBM-Rechnern am Beispiel von OS/390
BearbeitenDer Maschinencode entsteht beim Assemblieren bzw. beim Kompilieren der Quellcodedateien und wird vom„Linkage Editor “,ggf. unter Hinzufügen weitererModule,als ausführbares Programm in einerProgrammbibliothekbereitgestellt. Zur Ausführung wird dieses Programm in den Hauptspeicher geladen. Der Maschinencode dieser Programme enthält Befehle und Daten gemischt – wie dies bei Computern derVon-Neumann-Architekturmöglich ist (im Gegensatz z. B. zurHarvard-Architektur).
DieDatenwerden entsprechend dem festgelegten Speicherformat angelegt. Der Wert „12 “kann dabei z. B. folgendes Aussehen haben (Darstellung hexadezimal, in minimaler Länge):
- F1F2 Text oder ungepackte Zahl
- 012Cgepacktpositiv, Speicherung je Zahl ein Halbbyte, am Ende ein Vorzeichen-Halbbyte.
- 012D gepackt negativ (dto)
- 0C binär positiv, entspricht B'00001100'
Bei längeren Datenfeldern existieren ggf. führende Nullen zusätzlich oder bei Text nachfolgende Leerstellen. Für jedes vorgesehene Datenfeld ist eine 'Adresse' festgelegt, an der es beginnt und wo es entsprechend seiner Länge und seinem Format gespeichert ist.
DieBefehlebestehen aus dem Befehlscode und – je nach Befehl – Parametern unterschiedlicher Struktur. Die nachfolgenden Beispiele sindhexadezimaldargestellt. Befehlsbeispiele:
C5.1C.92A4.8C2B (Trennpunkte nur zur besseren Lesbarkeit eingefügt):
- C5 = Befehlscode fürCLC= Compare logical character; Zeichenvergleich
- 1C = Länge minus 1 der zu vergleichenden Felder (bei 00 wird 1 Byte verglichen usw., hier also 29 Bytes)
- 92A4 = Adresse erster Operand: 9 = Basisregister, 2A4 = Distanz zum Register
- 8C2B = Adresse zweiter Operand: 8 = Basisregister, C2B = Distanz zum Register
47.80.B654:
- 47 = Befehlscode fürBC= Branch on Condition: Sprungbefehl wenn Bedingung (aus Vorbefehl) erfüllt ist
- 8 = Bedingung; hier: wenn 'gleich', mnemotechnischer Assemblercode BE (branch on equal)
- 0 = optional Register, dessen Inhalt zur Sprungadresse hinzuaddiert wird; nicht bei '0'
- B = Zieladresse (Basisregister)
- 654 = Zieladresse (Distanz); bei Inhalt von B = 6C4410 würde nach Adresse 6C4A64 verzweigt werden.
<usw>
ImAssemblercodekönnte diese Codierung z. B. wie folgt aussehen:
- CLC FELDA(29),FELDB
- BE XXX
Von einerHochsprachegeneriert könnte der Quellcode dagegen lauten:
- IF Feld_A = Feld_B then GOTO XXX.
Bei „Bedingung erfüllt “wird nach XXX (= reale Adresse 6C4A64) verzweigt, andernfalls wird im Maschinencode mit<usw>
fortgefahren. Häufig generieren Hochsprachen zusätzliche Befehle, z. B. um Feldlängen oder Datenformate zu egalisieren, Register zu laden oder Adressen inArrayszu berechnen.
Man erkennt, dass die Befehle unterschiedlicheLängenaufweisen. DasSteuerwerkdes Rechners erkennt die Länge an den ersten beiden Bits des Befehlscodes und schaltet dasBefehlszählregisterdementsprechend weiter. An genau dieser Stelle wird das Programm fortgesetzt – falls kein Sprungbefehl auszuführen ist.
Speicheradressenwerden im Maschinencode immer durch eine (oder zwei) Registerangabe(n), zusätzlich optional durch eine im Befehl angegebene „Distanz “dargestellt. Zur Ausführung wird beim Programmstart ein bestimmtes Register vom Betriebssystem mit der Adresse geladen, an die das Programm in den Speicher geladen wurde. Von diesem Wert ausgehend, werden im Programmcode (bei ASS programmiert, bei Hochsprachen generiert) die Basisregister geladen, wodurch die mit relativen Adressen versehenen Befehle die tatsächlichen Speicherstellen ansprechen.
Zur Ausführung vonSystemfunktionen(wieEin-/Ausgabebefehle,Abfrage von Datum/Uhrzeit, Tastatureingabe, Laden von Unterprogrammen u. v. a.) wird im Maschinenprogramm lediglich ein Systemaufruf mit dem Befehl 'SVC' (Supervisor Call) abgesetzt. Im zweiten Byte ist die auszuführende Funktion spezifiziert (Verzeichnis siehe[3]); weitere Parameter für die Funktion werden über eine in ihrer Struktur festgelegte Datenschnittstelle übergeben, auf deren Adresse ein implizit vereinbartes (nicht im Befehl angegebenes) Register zeigt. Beispiel: X'05 08' = LOAD, Parameter = Pgm-Name etc. Die die aufgerufenen Funktionen ausführenden Befehle sind Maschinencode des Betriebssystems. Sie werden dort ausgeführt und führen anschließend zu dem dem SVC folgenden Befehl zurück.[4]
Überblick über die typische Funktionalität einer Maschinensprache
BearbeitenBefehlsvorrat
BearbeitenDie im Folgenden genannten Mnemonics (Befehlskürzel) wurden exemplarisch gewählt und hängen von der Assemblersprache ab.
Adressierung und Ergebnisanzeige:Fast alle Befehle adressieren die betroffenen Speicherpositionen (häufig Quelle/Ziel, zu vergleichend/Vergleichswert usw.) über definierteRegister.Ebenso gibt der Prozessor seine Ergebnisse und relevante Zusatzinformationen über festgelegte Register und/oder überFlagsimStatusregisterzurück. Dies ermöglicht es, im weiteren Programmablauf diese Informationen auszuwerten und darauf zu reagieren. Die Länge der Befehle und die Größe von Quell- und Zieloperanden können je nach Architektur unterschiedlich sein.
Beispiel: Ein Additionsbefehl wie ADC (add with carry) signalisiert dem weiteren Programmablauf ein Überschreiten des gültigen Wertebereichs über das Setzen des Carry- und Overflow-Flags hinaus.
Unterschiede:Der Befehlsvorrat einzelner Prozessoren ist unterschiedlich. Nicht alle Befehle sind auf jedem Prozessortyp und in jeder Prozessor-Generation verfügbar.
Beispiel: Ein einfacher Grundbefehl wieSHL/SHR,der einen Registerwert um eine bestimmte Anzahl von Stellen nach links oder rechts verschiebt ist schon im 8086 vorhanden. Die mächtigere VarianteSHLD/SHRD,welche zusätzlich die entstehenden Leerstellen aus einem anderen Integerwert auffüllt, ist erst ab dem 80386 implementiert.
Mächtigkeit:Der Befehlsvorrat eines Prozessors stellt dabei Befehle unterschiedlich mächtiger Funktionalität bereit. Neben einfachen, einstufigen Grundoperationen stehen auch Befehle zur Verfügung, die mehrere Operationen in einem Befehl bündeln.
Beispiele: Der BefehlCMP(compare) ermöglicht den Vergleich zweier Werte auf <,>, =. Der Befehl XCHG (exchange) vertauscht die Positionen zweier Operanden. Der BefehlCMPXCHG(compare and exchange) kombiniert diese beiden Befehle und ermöglicht einen bedingungsabhängigen Datenaustausch in einem Befehl. Während der BefehlBT (bit test)nur den Zustand eines einzelnen Bits in einem Integerwert prüft, ermöglichen es die BefehleBTC, BTR,undBTSdarüber hinaus, das geprüfte Bit abhängig vom Ergebnis der Prüfung zu setzen(BTS),zu löschen(BTR),oder zu invertieren(BTC).
Generell unterscheidet man zwischen CPUs mitRISC- (Reduced instruction set computer) oderCISC- (Complex instruction set computer) Befehlssatz. Erstere haben einen bedeutend weniger mächtigen Befehlssatz, können jeden einzelnen Befehl aber typischerweise in einem Taktzyklus abarbeiten. Moderne CPUs mit CISC-Befehlssatz (darunter fallen heute fast ausschließlichx86-kompatible CPUs) dekodieren zur schnelleren Abarbeitung die komplexen CISC-Befehle zur Ausführung intern in eine RISC-ähnliche Mikrocontroller-Sprache.
Performance:Jeder Befehl wird in einer in Datenblättern angegebenen Anzahl vonTaktzyklendes Prozessors abgearbeitet. Deren Kenntnis ermöglicht es dem Programmierer (bei extrem zeitkritischen Anwendungen) beispielsweise, Befehle mit vielen Taktzyklen durch mehrere, in der Summe aber effizientere Befehle zu ersetzen.
Kategorisierung der Befehle
BearbeitenGrundlegende Maschinen-Befehle lassen sich in folgende Kategorien unterteilen:
- Arithmetische Operationen: Führen Berechnungen durch(ADD, ADC, SUB, SBB, DIV, MUL, INC, DEC)
- Logische Operationen: VerknüpfenBitfelderlogisch miteinander (AND,OR,XOR,NOT)
- Bit-orientierte Operationen: Mit ihnen kann man einzelne Bits in einem Bitfeld genau ansprechen, auslesen(BSF, BSR),verschieben(SHL, SHR, RCL, RCR, ROL, ROR)bzw. manipulieren(BT, BTC, BTR)
- Speicheroperationen: Übertragen Daten zwischen Prozessorregistern(MOV, MOVSX, MOVZX, XCHG),innerhalb eines Registers(BSWAP),sowie Registern und Speicher
- Vergleichsoperationen: Vergleich von Werten mittels <, >, sowie =(CMP, TEST)
- Kombinierte Befehle aus Vergleichsoperationen, arithmetischen Operationen, und Datenaustausch(XADD, CMPXCHG)
- Steueroperationen: Verzweigungen, die den Ablauf des Programms beeinflussen
- Datenkonvertierung: Diese Befehle wandeln Werte von einer Darstellung in eine andere um, u. U. auch mit Verlust. Zum Beispiel: ein Byte in ein Word(CBW),einen Long-Integer in ein Byte (CVTLB) oder eine doppelte genaue Fließkommazahl in einen Integer (CVTSD2SI).
In vielen modernen Prozessoren sind die Befehle der Maschinensprache, zumindest die komplexeren unter ihnen, intern durchMikroprogrammerealisiert. Das ist insbesondere bei derCISC-Architektur der Fall.
Literatur
Bearbeiten- Assembler – Maschinennahes Programmieren von Anfang an.rororo Taschenbücher Nr. 61224 (2003),ISBN 3-499-61224-0.
Weblinks
BearbeitenEinzelnachweise
Bearbeiten- ↑Duden Informatik.ISBN 3-411-05232-5.
- ↑Maschinencode.In:Gabler Wirtschaftslexikon
- ↑Tabelle der SVC-Codes für IBM's MVS & OS/390 & z/OS
- ↑Supervisor Call instructionin der englischsprachigen Wikipedia