Historische Anmerkungen
Die
etymologischen Wurzeln des Begriffes "Statistik" finden sich im
neulateinischen "statistica, statisticum" (den Staat und seinen Status
betreffend), und im ital. "statista" (Staatsmann, Politiker). Seit
dem 18. Jh. (vgl. Sinclair (1754-1835), Achenwall (1749-1835)) wurde der
Begriff ‚Statistik‘ für die Sammlung und Auswertung von Daten benutzt. Heute
lassen sich zwei Bedeutungen im Gebrauch des Begriffes Statistik unterscheiden:
zum einen (insbesondere in der Fachsprache) die Wissenschaft von der
Entwicklung und Anwendung empirischer Methoden zur Analyse von Massendaten in
Natur und Gesellschaft, zum anderen (insbesondere umgangssprachlich) die
Ergebnisse dieser Analysen und deren Präsentation in Form von Tabellen,
Graphiken und Kennziffern (Maßzahlen, Statistiken).
Definition
"Dabei sind empirische Ergebnisse von großer Wichtigkeit, um Zusammenhänge zu verstehen, Theorien zu generieren, Hypothesen zu testen oder Meinungsbilder zu gewinnen."
[DAGStat-Bulletin 2008, Nr. 1, S. 5].
Die
Statistik liefert Verfahren der quantitativen empirischen Analyse und wird in
vielen wissenschaftlichen Disziplinen als Methode eingesetzt. Die Statistik befasst
sich im Einzelnen mit Verfahren zu Datenerhebungen, der Aufbereitung und
Darstellung der Daten zum Zwecke der Informationsgewinnung, der Datenanalyse
unter Verwendung stochastischer Modelle und unter Berücksichtigung der
spezifischen datengenerierenden Prozesse sowie mit der Interpretation der
empirischen Analysen zur Entwicklung von Handlungsempfehlungen in
Entscheidungssituationen, zur Überprüfung von Hypothesen und für Prognosen.
Statistische Untersuchungen umfassen folglich Projektplanung, Modellierung, Datenerhebung,
Datenaufbereitung, Analyse, Interpretation und Dokumentation.
Teilgebiete
Wie viele
andere wissenschaftliche Disziplinen hat sich die Statistik im Laufe der Jahre
immer weiter ausdifferenziert. Wichtige Teilgebiete der modernen Statistik
sind: Deskriptive (beschreibende) Statistik, Explorative
(hypothesen-entdeckende) Statistik, Induktive (schließende) Statistik und
weitere inferenzstatistische Methoden, Statistische Entscheidungstheorie,
Rechnergestützte Statistik (Computational Statistics), Data Mining.
Deskriptive Statistik
Die
deskriptive Statistik befasst sich mit der Aufbereitung und Beschreibung der
Daten. Dazu gehören Fragen der Kodierung, der problemadäquaten
Variablendefinitionen, der Identifikation von Messfehlern und Ausreißerwerten
sowie die Behandlung fehlender Werte, die Informationsverdichtung in Form von
Tabellen, Graphiken und Maßzahlen unter Berücksichtigung der Variablentypen.
Als Datenquellen kommen Erhebungen der amtlichen und der nichtamtlichen
Statistik oder eigene Erhebungen in Form von Umfragen, Beobachtungen oder
Experimenten in Betracht. In neuerer Zeit hat die Bedeutung von Internetquellen
sowie von Geschäfts- und Abrechnungsdaten für die angewandte Statistik ständig
zugenommen. Allerdings bleiben dabei häufig Fragen nach der Seriosität der
Datenproduzenten und der Datenqualität (Repräsentativität, Objektivität,
Validität und Reliabilität) offen. In diesem Zusammenhang hat auch die
Bedeutung großer, komplexer, wenig strukturierter Datensätze an Bedeutung
gewonnen, für die eigene statistische Auswertungsmethoden erforderlich wurden. Werden
alle für eine Fragestellung relevanten Objekte erfasst, spricht man von
Vollerhebung. Kostengründe sprechen aber häufig für Teilerhebungen.
Schließende Statistik
Mit der
Frage, wie sich aufgrund von Informationen aus Teilerhebungen Aussagen für die
insgesamt interessierende Grundgesamtheit gewinnen lassen, beschäftigt sich die
schließende Statistik. Durch die Benutzung spezieller
wahrscheinlichkeitstheoretischer Modelle und statistischer Methoden der Schätz-
und Testtheorie lassen sich entsprechende Aussagen treffen, die mit
Unsicherheit behaftet sind, deren Unsicherheit aber abgeschätzt und
quantifiziert werden kann. Mit Hilfe explorativer Methoden, dazu gehören im
weitesten Sinne auch Methoden des Data Mining, sollen in großen Datensätzen
unter intensiver Nutzung spezifischer Software und Computerunterstützung Muster
und Regelmäßigkeiten, Regeln und Zusammenhänge zwischen Objekten und/oder
Variablen aufgedeckt und für weitere wissenschaftliche Untersuchungen
bereitgestellt werden. Während die induktive Statistik hauptsächlich
modellorientiert und hypothesen-überprüfend vorgeht, zählen die meisten
explorativen Methoden zu den datenorientierten hypothesen-erzeugenden
Verfahren. Eine strikte Trennung dieser Vorgehensweisen ist aber in der Praxis
wenig hilfreich, "Lernen aus Daten" ist schließlich das Ziel
statistischen Arbeitens in allen Fachdisziplinen. In
diesem Zusammenhang spricht man auch von ‚Data Literacy: ‚Data Literacy‘ ist
die Fähigkeit, Daten bewusst einsetzen, hinterfragen und auswerten zu können.
Das Hochschulforum Digitalisierung sieht darin ein zentrales Gut der
Wissensgesellschaft und sucht nach Wegen, sie den Studierenden an den
Hochschulen zu vermitteln. Der Erwerb von Data Literacy sei entscheidend dafür,
in der digitalen Welt fachspezifisch Wissen und Kompetenz aufbauen und
einsetzen zu können (SZ Spezial. Schule, Hochschule und Weiterbildung,
12.10.17, S. 24). Dabei muss auch den
Besonderheiten der Fragestellungen und der Datenbeschaffenheit jeweils Rechnung
getragen werden. Entsprechende Spezialisierungen führten zu Teildisziplinen wie
Ökonometrie (Statistische Datenanalyse in der Ökonomik) oder Biometrie
(Statistische Methoden der Biologie). Hinsichtlich der Datenstrukturen sind
auch Querschnitts-, Längsschnitt- und Paneldatenanalysen zu unterscheiden, die
ebenfalls zu entsprechenden Spezialisierungen in der statistischen Arbeit
führten. Nach wie vor sind auch Grundlagenfragen der statistischen Inferenz,
der Modellierung und der Messung von Unsicherheit und Risiko sowie die
Unterscheidung von Korrelations- und Kausalitätsbeziehungen Gegenstand
lebhafter Kontroversen sowohl in der angewandten als auch in der theoretischen Statistik. Fragen der Datensicherheit bzw. des Datenmissbrauchs, aber auch Anwendungsfragen, wie die nach der Interpretation und dem Gebrauch des begriffes "Statistische Signifikanz" werden zunehmend kontrovers diskutiert.
Literatur
Achenwall,
Gottfried: Statsverfassung der heutigen vornehmsten europäischen Reiche und
Völker im Grundrisse. Göttingen 1749.
Anderson, David R. et al.: Statistics for Business and Economics. Cengage
Learning 2006.
Bamberg,
Günter ; Baur, Franz ; Krapp, Michael: Statistik. 17. Auflage. Oldenbourg 2012.
Bortz,
Jürgen; Schuster, Christof: Statistik für Human- und Sozialwissenschaftler. 7. Auflage.
Springer 2010.
Fahrmeir,
Ludwig ; Künstler, Rita ; Pigeot, Iris ; Tutz, Gerhard: Statistik. Der Weg zur
Datenanalyse. 7., überarbeitete Auflage. Springer 2012.
Harari,Yuval Noah: Homo Deus. Eine Geschichte von Morgen. Beck; München 2017.
Hartung,
Joachim; Elpelt, Bärbel ; Klösener, Karl-Heinz: Statistik. Lehr- und Handbuch
der angewandten Statistik. 15. Auflage. Oldenbourg 2009.
Mosler, Karl; Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik. 3. Auflage, Springer: Berlin 2009.
Mosler, Karl; Schmid, Friedrich: Wahrscheinlichkeitsrechnung und schließende Statistik 4. Auflage, Springer: Berlin 2011.
Reinhart, Alex: Statistics Done Wrong: The Woefully Complete Guide; No Starch Press; San Francisco; 2015.
Voß, Werner u.a. Taschenbuch der Statistik. 2. Verbesserte Auflage. Fachbuchverlag Leipzig im Carl Hanser Verlag ; München et al. 2003.
Ziliak, Stephen; Deirde McCloskey: The Cult of Statistical Signifcance: How The Standard Error Costs Us Jobs, Justice, and Lives; University of Michigan Press; An Arbor; 2002.
Autoren
Prof. Dr. Manfred Kraft, Universität Paderborn, Lehrstuhl für Ökonometrie und Statistik, Warburger Str. 100, 33098 Paderborn
Autoreninfo
Dr. Sonja Lück, Universität Paderborn, Fakultät für Wirtschaftswissenschaften, Statistik und Quantitative Methoden der Empirischen Wirtschaftsforschung, Warburger Str. 100, 33098 Paderborn
Autoreninfo