Eine Auszeichnungssprache (engl.: markup language) ist eine formale (nicht-natürliche) Sprache, die es ermöglicht, unterschiedliche Bestandteile eines Textes als solche zu kennzeichnen. Durch eine Auszeichnungssprache können beliebigen Textelementen auf deklarative Weise Eigenschaften zugewiesen werden, wodurch deren Bedeutung ausgedrückt werden kann.
Geschichtliche Entwicklung
Der Begriff der Auszeichnungssprache (engl.: markup language) geht auf William Tunnicliffe zurück, der diesen im Rahmen einer Konferenz im Jahr 1967 prägte [Goldfarb 1996]. Im Rahmen seines Vortrags betonte er die Notwendigkeit, in Texten sowohl die Informationsinhalte (engl.: information content) als auch die typographische Formatierung darzustellen, wobei er auf die Orthogonalität und Trennung von Inhalt und Format Wert legte. Gleiche Inhalte können und sollen je nach Verwendung unterschiedlich dargestellt werden.
Die erste, weit verbreitete Auszeichnungssprache war GML (Abkürzung von engl.: generalized markup language), die vom IBM-Mitarbeiter Charles Goldfarb im Jahr 1969 entwickelt wurde. Schwerpunkt der Anwendungen für GML war die technische Dokumentation. Eine Weiterentwicklung dieser Auszeichnungssprache wurde als SGML (Abkürzung von engl.: structured generalized markup language) von der ISO 1986 als Standard verabschiedet (ISO 8879). SGML [Goldfarb, Rubinsky 1991] gilt heute als der wichtigste Vorfahr der modernen Auszeichnungssprachen HTML und XML.
Weitere wichtige Auszeichnungssprachen sind Scribe [Reid 1980] und TeX [Knuth 1984]. Scribe war die erste Sprache, die bereits 1980 die explizite Trennung von Textdateien und Stildateien ermöglichte, eine Idee, die auch von SGML aufgegriffen wurde. TeX ist eine Auszeichnungssprache, die von Donald Knuth entwickelt wurde und die bis heute vor allem durch seine unübertroffenen Stärken im mathematischen Formelsatz im Bereich der technisch/naturwissenschaftlichen Publikationen sehr weit verbreitet ist.
Textauszeichnungen
Durch die Textauszeichnung werden Textelementen Eigenschaften zugewiesen. Syntaktisch betrachtet muss definiert werden, wo eine Textauszeichnung beginnt, und wo diese endet. In der Sprachfamilie von SGML erfolgt die Textauszeichnung mittels einer Startmarkierung (engl.: start tag) und einer Endemarkierung (engl.: end tag), wobei die Markierungen die Eigenschaften des umschlossenen Textes festlegen. Diese Markierungen können im Allgemeinen hierarchisch (geschachtelt) aufgebaut sein, das heißt, dass in markiertem Text weitere Markierungen enthalten sein können. Durch die Markierungen werden die Dokumentinhalte strukturiert.
Arten von Textauszeichnungen
Der Grundgedanke der Trennung von Inhalt und Texteigenschaften liegt in allen Auszeichnungssprachen zugrunde. Während bei den frühen Auszeichnungssprachen typographische Aspekte im Vordergrund standen (die Auszeichnung besagt beispielsweise, dass ein Wort kursiv gesetzt werden soll) erfolgte schrittweise eine höhere Abstraktion. Bei Sprachen wie Scribe oder Latex ist es beispielsweise möglich zu definieren, das eine gewisser Text eine Überschrift, eine Abbildungsbeschriftung, oder der Name eines Autors ist. Hier liegt allerdings weiterhin der Anwendungsfokus auf flexiblem Drucksatz. Man spricht deshalb auch von typographischen Auszeichnungssprachen. Bei semantischen Auszeichnungssprachen (siehe die Familie der XML-Sprachen) ist das Ziel, Texten semantische Eigenschaften zuzuweisen. Beispielsweise können Textelemente als Bestellmengen, Produktbezeichnungen oder Preise gekennzeichnet werden, und diese in dem Dokument als Bestellungen zusammengefasst werden. Der typographische Satz ist hierbei nebensächlich (siehe auch XML).
Literatur
Goldfarb, Charles: The Roots of SGML, A Personal Recollection (1996): http://www.sgmlsource.com/history/roots.htm (Abruf 30.Aug. 2008).
Goldfarb, Charles; Rubinsky, Yuri: The SGML Handbook, 688 pages, Oxford University Press, Oxford 1991.
Reid, Brian K.: A High-Level Approach to Computer Document Formatting, Symposium on Principles of Programming Languages, Las Vegas, Nevada, January 1980.
Knuth, Donald E.: The TeXbook (Computers and Typesetting), Addison-Wesley, Reading, Massachusetts 1984.