Information wird in der mathematischen Kommunikationstheorie definiert als ein Maß für die Wahrscheinlichkeit von Nachrichten. Nach Shannon und Weaver gilt dabei, dass eine Nachricht umso höheren Informationsgehalt hat, je unwahrscheinlicher sie ist und umgekehrt.
Information
Information leitet sich ab aus lateinisch “informare“, was “bilden” oder “formen” bedeutet. Mittlerweile wird der Informationsbegriff allerdings nur noch im Zusammenhang mit einer Nachricht bzw. einem Signal gebraucht [Capurro 1978, S. 201]. Umgangssprachlich wird häufig nicht unterschieden zwischen der Bedeutung und der Wichtigkeit einer Nachricht einerseits und deren Informationsgehalt andererseits. Wissenschaftlich jedoch sind diese drei Begriffe unbedingt zu unterscheiden.
Die erste mathematische Definition des Informationsgehalts von Nachrichten stammt von Hartley, der 1928 das Informationsmaß H definierte durch die Anzahl der Selektionen, die für die Erstellung einer Nachricht aus einer Menge von Zeichen erforderlich ist. Hat diese Menge n Zeichen, so ist
Hartley setzte dabei voraus, dass jedes Zeichen gleich wahrscheinlich ist, was so natürlich generell nicht zutrifft. Der Nachrichteningenieur Claude Shannon erweiterte deswegen diese einfache Definition, indem er den Informationsgehalt einer Nachricht definierte über das Maß an Wahrscheinlichkeit der Nachricht bzw. über die Summe der Teilwahrscheinlichkeiten der Teilnachrichten: Je unwahrscheinlicher eine Nachricht ist, desto höher ist ihr Informationsgehalt und umgekehrt [Shannon, Weaver 1976, S. 60]. Mathematisch lässt sich dies folgendermaßen ausdrücken:
Sei pi die Teilwahrscheinlichkeit einer Teilnachricht i und Hi deren Informationsgehalt. Dann ist
Durch Aufsummierung der Hi erhält man dann die berühmte Definition des gesamten Informationsgehalts H einer Nachricht:
Sowohl in der Definition von Hartley als auch in der von Shannon und Weaver wird der Logarithmus dualis ld verwendet, weil es in beiden um Selektionen von Möglichkeiten geht. Diese Selektionen bestehen jeweils in der Auswahl einer von zwei Alternativen, also sozusagen 1 und 0, und damit aus einem Bit. Es ist eine der großen Leistungen von Shannon nicht nur für die Informatik, das Bit als Maß für derartige Selektionsmöglichkeiten eingeführt zu haben.
Der Grundgedanke dieser Definition, Informationsmaße über die Unwahrscheinlichkeit von Nachrichten zu bestimmen, ist nur auf einen ersten Blick befremdend. Zweifellos wird auch in der Alltagssprache eine Nachricht als umso informativer bewertet, je überraschender sie ist, und umgekehrt. Die Nachricht, dass am Nordpol Schnee liegt, ist nicht sehr informativ, da sie nicht überrascht. Die Nachricht dagegen, dass am Nordpol die Gletscher schmelzen, ist sehr informativ, da dies normalerweise nicht erwartet wird – von den ökologischen Folgen ganz zu schweigen.
Häufig wird H auch als negative Entropie (Negentropie) bezeichnet. Die Entropie E ist ein Maß für die Ordnung von (thermodynamischen) Systemen, wobei die Entropie umso größer ist, je weniger Ordnung das System aufweist und umgekehrt. Ein hoher Grad an Entropie ist wahrscheinlicher als ein niedriger Grad, also hohe Ordnung. Aufgrund der mathematischen Definition von E lässt sich deshalb auch E = -H schreiben; die Beobachtung eines sehr geordneten Systems bedeutet also einen hohen Informationsgehalt und umgekehrt.
Die Definition von Shannon und Weaver ist allerdings für die mathematische Modellierung von menschlicher Kommunikation nicht geeignet, da bei der Definition von H eine „objektive“ Wahrscheinlichkeit verwendet wird, die für alle Sender und Empfänger stets gleich ist. Da die gleiche Nachricht jedoch für menschliche Empfänger sehr unterschiedliche Informationsgrade haben kann, haben Klüver und Klüver [2007, S. 40] vorgeschlagen, den Informationsgehalt einer Nachricht zu definieren als die Differenz zwischen einem Wahrnehmungsvektor W und einem Erwartungsvektor V, also
wobei W die tatsächliche Nachricht repräsentiert und V die davon abweichende Erwartung des Empfängers. Formal lässt sich diese Definition ähnlich darstellen wie die klassische Definition von Shannon und Weaver:
Dies geschieht dadurch, dass wie bei Shannon und Weaver eine Nachricht in Teilnachrichten zerlegt wird, z.B. (Nordpol, Gletscher, Eis, etc.). Eine Nachricht wird dann als Wahrnehmungsvektor W = (w1, w2, …, wn) codiert und entsprechend die Erwartung in Bezug auf die Nachricht als V = (v1, v2, … ,vn). Der Informationsgehalt H der Nachricht W ist dann die Summe der Differenzen der Teilnachrichten, also
Je mehr sich demnach Erwartung und tatsächliche Nachricht gleichen, desto kleiner ist der Informationsgehalt und umgekehrt. Bei umfangreichen Nachrichten, die aus vielen Teilnachrichten bestehen, kann man für Normalisierungszwecke ebenfalls den Logarithmus Dualis ld hinzufügen, aber das ändert an der grundsätzlichen Logik der Definition nichts. Diese ist realistischer für tatsächliche menschliche Kommunikation.
Menschliche Kommunikatoren speichern ihr „Weltwissen“ überwiegend in Form sprachlicher Symbole; dies ist bekanntlich auch die Weise, in der Menschen zum großen Teil kommunizieren. Die Struktur des sprachlich-symbolisch codierten Weltwissens lässt sich in Form sog. semantischer Netze darstellen, d.h. Netze, deren Einheiten sprachliche Begriffe sind – Nordpol, Eis etc. – und die miteinander verbunden sind, je nach semantischer Zusammengehörigkeit. In Computerexperimenten haben Klüver und Klüver gezeigt, dass der Informationsgehalt einer aus derartigen Begriffen bestehenden Nachricht wesentlich von der „Geometrie“ der semantischen Netze des Empfängers der Nachricht abhängt. Wenn man die semantischen Netze als Graph darstellt, dann gilt:
Je zusammenhängender die semantischen Netze des Empfängers im graphentheoretischen Sinne sind desto geringer ist wahrscheinlich der Informationsgehalt der entsprechenden Nachricht und umgekehrt.
Die grundlegenden Ideen von Shannon und Weaver lassen sich offenbar auch umstandslos auf menschliche Kommunikation übertragen, was häufig bezweifelt wurde.
Literatur
Capurro, Rafael: Information. Ein Beitrag zur ethymologischen und ideengeschichtlichen Begründung des Informationsbegriffs. München : Saur, 1978.
Klüver, Jürgen ; Klüver Christina: On Communication. An Interdisciplinary and MathematicalApproach. Dordrecht : Springer, 2007.
Shannon, Claude. E. ; Weaver, Warren: Mathematische Grundlagen der Informationstheorie. München : Oldenbourg, 1976.