Grundbegriffe der Statistik

In der Statistik haben wir es mit Stichproben zu tun, die aus einer Grundgesamtheit (alle Einwohner eines Landes, alle Äpfel aus einer Lieferung ...) entnommen werden. Die Elemente der Stichprobe werden auf ein bestimmtes Merkmal untersucht, das in verschiedenen Ausprägungen auftreten kann.

n: Umfang der Stichprobe
x1, x2, ..., xn: gemessene Werte (Ausprägungen des untersuchten Merkmals)
H1, H2, ... : absolute Häufigkeit
h1, h2, ...:relative Häufigkeit (hi = Hi/n)

Je nach Art eines Merkmals unterscheidet man verschiedene Skalenniveaus:

Die Summenhäufigkeit gibt die (absolute oder relative) Häufigkeit der Werte an, die höchstens einen bestimmten Wert annehmen. Sie kann bei metrischen und ordinalen Daten angegeben werden.

Bei großen Datenmengen teilt man die Werte in Klassen ein (z.B. Größe 150 - 160 cm, 160 - 170 cm ...). In diesem Fall kann man die (absoluten oder relativen) Häufigkeiten in einem Histogramm darstellen (siehe Beispiel). (Andere Möglichkeiten der grafischen Darstellung sind z.B. Kreisdiagramm, Säulen- und Balkendiagramm ...)

 

Zentralmaße

Wir versuchen, die Stichprobe durch einen "mittleren Wert" zu beschreiben.

Arithmetisches Mittel

Das arithmetische Mittel (meist einfach als Mittelwert bezeichnet) ist das wichtigste Zentralmaß:

(Zur Verwendung des Summenzeichens)

Wenn Werte mehrmals vorkommen, rechnet man besser mit den relativen Häufigkeiten:

(gewichtetes arithmetisches Mittel)

Bei klassifizierten Daten verwendet man die Klassenmitten als Messwerte (z.B. Körpergröße 150 - 160 cm: wir rechnen mit xi = 155 cm). Das arithmetische Mittel ist nur bei metrischen Daten sinnvoll.

Median

Das arithmetische Mittel hat den Nachteil, dass es sehr empfindlich gegenüber "Ausreißern" ist (wenn z.B. in einer Firma 9 Personen je 1000 € verdienen und der Chef 11000 €, beträgt das "Durchschnittseinkommen" 2000 €!) In solchen Fällen ist der Median (Zentralwert) aussagekräftiger: Wir ordnen die Daten der Größe nach und betrachten den Wert in der Mitte der Liste. Bei einer geraden Anzahl von Daten bilden wir das arithmetische Mittel der beiden mittleren Werte. Die so erhaltene Zahl hat die Eigenschaft, dass die Hälfte der Werte darunter, die Hälfte darüber liegt. (Genauer gesagt: Mindestens 50 % aller Werte sind ≤ , mindestens 50 % sind ≥ .

= x(n+1)/2 für ungerades n
= 1/2·(xn/2 + xn/2+1) für gerades n
(xi: Werte aus geordneter Liste)

Der Median kann bei ordinalen und metrischen Daten angewendet werden.

Modus

Der Modus (Modalwert) ist der Wert, der am häufigsten vorkommt. Eine Stichprobe kann auch mehrere Modalwerte haben. Dieser Wert liefert am wenigsten Information, er kann aber auf allen Datenniveaus angewendet werden.

 

Streuungsmaße

liefern ein Maß dafür, wie sehr die gemessenen Werte vom Mittelwert abweichen.

Varianz und Standardabweichung

Wir interessieren uns für die Differenzen der gemessenen Werte zum arithmetischen Mittel. Damit wir nicht mit negativen Zahlen rechnen müssen, quadrieren wir diese Differenzen und bilden davon wieder den Mittelwert. So erhalten wir die Varianz:

Das kann man umformen zu folgender Formel, die leichter zu berechnen ist:

("Mittelwert der Quadrate minus Quadrat des Mittelwerts")

Wenn Werte mehrmals vorkommen, rechnet man wieder mit dem gewichteten Mittel:

Damit die Dimension wieder "stimmt", ziehen wir die Wurzel aus der Varianz und erhalten die Standardabweichung:

(Achtung, Verwechslungsgefahr:
In manchen Büchern findet sich für die Varianz folgende Formel:
Sie wird dann verwendet, wenn man aufgrund einer Stichprobe die Varianz der Grundgesamtheit abschätzen will.)

Spannweite

Die Differenz zwischen dem kleinstem und dem größten Wert bezeichnet man als Spannweite (engl. range). Dieses Streuungsmaß ist besonders leicht zu berechnen.

r = xmax − xmin

Quartile:

Die Quartile definiert man analog zum Median:

unteres Quartil q1 bzw. q0,25: ¼ der Werte liegen darunter
oberes Quartil q3 bzw. q0,75: ¾ der Werte liegen darunter

Der Median ist in dieser Bezeichnungsweise das 2. Quartil q2 bzw. q0,5.
(Ebenso definiert man Perzentile, z.B. 10%-Perzentil q0,1: 10% der Werte liegen darunter.)

Eine sehr übersichtliche Darstellung von Median, Spannweite und Quartilen ist der Boxplot ("box and whiskers", siehe Beispiel): Die "Box" reicht vom unteren bis zum oberen Quartil, die Linie in der Mitte gibt den Median an. Der "Schnurrbart" reicht bis zum kleinsten bzw. größten Wert.

Beispiel:

Bei größeren Datenmengen ist die händische Berechnung sehr aufwendig. Man kann sie sich sparen, indem man ein Tabellenkalkulationsprogramm nutzt, z.B. MS Excel Auch die meisten Taschenrechner haben Statistikfunktionen.

Übungen