Actos Lab

XML - Extensible Markup Language

Die Buchstaben XML stehen für Extensible Markup Language. Der Begriff stammt aus dem Englischen und bedeutet soviel wie "erweiterbare Auszeichnungssprache". Eine Auszeichnungssprache wird verwendet, um den Inhalt eines Dokumentenformates zu beschreiben. Auch wird damit das Verfahren beschrieben, welches zur Bearbeitung dieser Daten benötigt wird. Früher wurden diese Auszeichnungen im Text als Anweisungen für den im Drucksatz arbeitenden Setzer verwendet. In der Weiterentwicklung im Laufe der Zeit entwickelte sich eine Typografie für digitale Texte und daraus wiederum komplexe Sprachen.

Anwendungsgebiete

Mittlerweile dient XML zum Austausch von Daten zwischen mindestens zwei Computersystemen über das Internet. Ein XML-Dokument besteht aus verschiedenen Textzeichen, welches für Menschen lesbar ist. Hierfür gibt es verschiedene Kodierungen. Die einfachste davon ist die ASCII-Kodierung. Diese besteht aus 128 Zeichen - aus 95 druckbaren (z.B. das komplette lateinische Alphabet in Groß- und Kleinbuchstaben) und 33 undruckbaren Zeichen (z.B. Tabulator, Zeilenvorschub und Protokollzeichen). Binärdaten (reine Textdatei mit nicht-alphabetischen Zeichen) sind entsprechend der Defintition nicht enthalten.

XML Regeln

Von einem "Well-formed Document" (Wohlgeformtheit) spricht man, wenn alle XML-Regeln eingehalten sind. Dazu gehören, zum Beispiel, die folgenden Elemente:

  • Bei einem Wurzelelement handelt es sich um das äußerste Element. Eine Datei beinhaltet exakt nur ein solches Element.

  • Mehrere Attribute mit dem gleichen Namen können nicht im gleichen Dokument verwendet werden. Ein anderes Wort für Attribut ist Eigenschaft. Dahinter verbirgt sich ein Merkmal, Kennzeichen oder Informationsdetail, welches einem bestimmte Objekt zugeordnet ist.

  • Alle Inhalte benötigen einen sog enannten Tag, also einen Beginn- und einen Endauszeichner. Diese Auszeichner sind ebenentreu-paarig zu verwenden, d.h. jedes Element muss erst einmal geschlossen werden, bevor der neue Beginnauszeichner gesetzt wird.

Außerdem benötigen die XML-Dokumente eine Gültigkeit oder Validität. Wird ein Dokument zum Datenaustausch benötigt, so ist es wichtig zu prüfen, ob es "Wohlgeformt", also korrekt, ist. Es wird als gültig (engl.: valid) bezeichnet, wenn es die vorher festgelegten Regeln einhält. Für die Prüfung wird ein sog. XML-Parser verwendet, der Programmteile bzw. XML-Daten ausliest und diese interpretiert. Soll auch noch auf Gültigkeit geprüft werden kommt ein validierender Parser zum Einsatz.

Arten von XML-Dokumenten

XML-Dokumente lassen sich in datenzentrierte und dokumentzentrierte Dokumente unterteilen. Dies hängt davon ab, welcher Gebrauch beabsichtigt ist und welcher Strukturierungsgrad dahinter steckt. Allerdings ist die Grenze zwischen den beiden Arten fließend. Wenn ein Dokument beide Formen enthält, spricht man von einem semistrukturierten Dokument.

Datenzentriert

Ein datenzentriertes XML-Dokument ist hauptsächlich für die maschinelle Verarbeitung geschrieben worden. Das Dokument weißt eine starke Strukturierung aus und ist im unmittelbaren menschlichen Gebrauch eher weniger geeignet.

Dokumentzentriert

Ein dokumentzentriertes Dokument enthält keine zusätzlichen Metainformationen und ist somit für Menschen lesbar. Es fehlt die starke Strukturierung, so dass diese Art von Dokumenten nur schwierig in der maschinellen Verarbeitung verwendet werden kann.

Semistrukturiert

Ein semistrukturiertes Dokument ist zwar stärker strukturiert, wie ein dokumentzentriertes Dokument, aber schwächer als ein datenzentriertes, so dass diese Dokumente zu recht als Mischform betrachtet werden können.

Bild

Ein XML-Dokument, betrachtet in Notepad++
So sieht ein XML-Dokument aus, wenn es mit Notepad++ betrachtet wird. Man erkennt deutlich die verschachtelte Baumstruktur der Einträge. Tags sind blau und Daten sind schwarz.

XML Lernen

XML ist simpel zu erlernen. Hier einige Tutorials:

  • Self HTML
    Das bekannte Portal zu HTML hat auch eine Sektion für XML.

  • SQL und XML lernen
    Der Name ist Programm. SQL muss nicht erlernt werden; die Kurse sind getrennt.

  • Self XML

  • W3schools
    Bei diesem englischsprachigen Anbieter kann man sich kostenpflichtig zertifizieren lassen.