Statistik-Programmpakete sind spezielle Datenbanken zur statistischen Auswertung umfangreicher Datenbestände.
Sie umfassen zahlreiche Techniken
-
des Datenmanagements
-
der Datenmodellierung
-
der Ergebnispräsentation
-
der Automatisierung und Programmergänzung.
Im Rahmen des Datenmanagements werden die erfassten Daten in einer Tabelle abgelegt. Jede Spalte enthält ein statistisches Merkmal, dessen Datenformat zusammen mit der Benennung und der definierenden Beschreibung in einer Kopfzeile deklariert wird. Die Zeilen der Tabelle umfassen entweder die verschiedenen Merkmalsträger, an denen die Daten beobachtet worden sind, oder stellen den Zeitbezug der Beobachtung für ein und denselben Merkmalsträger in fortlaufender Nummerierung her. Die Anzahl der Zeilen ist für alle Variablen gleich. Eine Merkmalstabelle kann im Rahmen des Datenmanagements aktualisiert, erweitert oder je nach Untersuchungsziel temporär reduziert bzw. zusammen gefasst werden. Wichtig ist, dass die untersuchungsrelevanten Zeilen für alle Merkmalsträger bzw. Zeitperioden überein stimmen. Die Datentabellen werden oft mit Hilfe importierter Excel-Sheets erzeugt. Unbesetzte Datenzellen können durch Erfassungs- oder Übertragungsfehler verursacht sein und mit Hilfe einfacher Methoden geschlossen werden.
Die Datenmodellierung umfasst Methoden der beschreibenden Statistik und der schließenden Statistik auf der Grundlage von Wahrscheinlichkeitsverteilungen. Deskriptive Auswertungen vermitteln einen ersten Überblick zu den Mittelwerten, Streumaßen und Häufigkeitsverteilungen der einzelnen Merkmale. Darüber hinaus lassen sich mögliche Wechselwirkungen zwischen verschiedenen Merkmalen und denkbare Ursache-Wirkungs-Beziehungen im Rahmen von Korrelations- und Regressionsrechnungen quantifizieren. Für sehr viele praktische Untersuchungen reichen die deskriptiven Methoden bereits aus.
Um statistisch signifikante Aussagen zu erhalten, können in einem zweiten Schritt sachlogisch begründete Arbeitshypothesen mit Hilfe von Wahrscheinlichkeitsmodellen getestet werden. Entsprechende statistische Testverfahren geben Aufschluss über signifikante Veränderungen von Mittelwerten, Streumaßen und anderen Parametern in Raum und Zeit. Darüber hinaus lassen sich die Schätzwerte für Parameter in statistische Vertrauensintervalle einbetten. Diese fallen mitunter wesentlich breiter aus als heuristische Intervalle aus Expertenschätzungen und sind deshalb besonders interpretationsbedürftig.
Ausschlaggebend für die Auswahl einer geeigneten Untersuchungsmethode ist die Datenskalierung. Befragungsdaten sind vorrangig nominal oder ordinal skaliert, so dass nur auf Gleichheit (Nominalskala), wie z. B. beim Geschlecht, bzw. auf Rangunterschied (Ordinalskala), wie zum Beispiel bei einer Ratingskala, geprüft werden kann. Die Korrelations- und Regressionsrechnung erfolgt in diesen Fällen mit speziellen Methoden, wie z. B. der Rangkorrelation nach Kendall oder der logistischen Regression.
Häufig genutzte Methoden zur Datenverdichtung sind die Faktoranalyse, bei der einander ähnliche Variable zu Faktoren zusammengefasst werden, und die Clusteranalyse, die einander ähnliche Merkmalsträger ermittelt und zu interpretierbaren Clustern gruppiert. Bei der Zeitreihenanalyse werden vor allem langfristige Trends, saisonale Veränderungen und kurzfristige Schockfortwirkungen bestimmt und in speziellen Erklärungs- und Prognose-Modellen abgebildet. Dazu zählen die in der betrieblichen Praxis weit verbreiteten Ansätze der exponentiellen Glättung und parametersparsame Modelle vom Typ ARIMA oder GARCH, die vor allem im Finanz- und Versicherungswesen genutzt werden.
Die Ergebnispräsentation umfasst Tabellen und Grafiken. Das entsprechende Outputdokument muss meistens redaktionell nachbearbeitet werden. Das betrifft vor allem die nicht normgerechte tabellarische Ergebnispräsentation. Für eine druckreife Aufbereitung der Grafiken werden spezielle Editoren angeboten. Deren Funktionalität spielt auch in der deskriptiven Phase eine Rolle, wenn z. B. extreme Werte erkannt und beseitigt werden oder Trend und Saisonverläufen grafisch zu analysieren sind.
Statistische Programmpakete enthalten meistens auch die Möglichkeiten zur Automatisierung von routinemäßigen Auswertungen (Jobsteuerung) und zur Programmergänzung mit Hilfe von VBA Dialekten. Die Erweiterung der Funktionalität ist für Anwendungen in der Wirtschaft bedeutsam.
Es wird zwischen kommerziell vertriebenen Softwarepaketen und kostenfreier Open Source Software unterschieden.
Marktführende Pakete mit einem umfassenden statistischen Methodenangebot für sehr viele Anwendungsbereiche sind SAS (s. http://www.sas.com) und SPSS (s. http://www.spss.com). Als aufstrebendes Paket gilt STATA. Methodisch speziell ausgerichtete Pakete sind z. B. EViews (Zeitreihenanalyse) und LIMDEP (Ökonometrie). Zur Open Source Software zählen vor allem R (Nachfolger von S bzw. S Plus), eine Entwicklungsumgebung zur Erprobung statistischer Methoden im Bereich der Forschung und akademischen Lehre, und das auf innovative Ansätze in der Zeitreihenanalyse und ökonometrischen Modellierung ausgerichtete Paket GRETL.