Cluster-Analyse

Die Cluster-Analyse soll den Anwender bei der Ermittlung von Gebietstypen unterstutzen. Fur die Clusteranalyse können Sie kommerzielle (z.B. SPSS) oder quelloffene (z.B. GNU R einsetzen.

SIKURS-Cluster

Im SIKURS-Programmsystem ist das Programm von Open Source Clustering Software von Michiel de Hoon integriert. Wenn Sie dies einsetzten wollen, dann sind dazu folgende Schritte notwendig:
  1. Verdichtung und Normieruung von Gebietsmerkmalen auf Vektoren wählbarer Dimension.
    Fur diesen Schritt bietet das Programm die Verdichtung einer GEM-Datei an, d.h. die wahlweise Nutzung der Merkmale Altersstruktur, Geschlechtsverteilung und Verteilung von Bevölkerungsgruppen (z.B. Ausländeranteil).
    Alternativ kann der Nutzer mit Hilfe eigener Programme beliebige Merkmale (Attraktivität, Wanderungsverhalten, Arbeitsplatzentwicklung, Arbeitslosenquote, kommunale Steuereinnahmen, Anteil Hochqualifizierter, Anteil Mehrpersonenhaushalte, ...) und zu Eingabevektoren vorverarbeiten.
  2. Standardisierung des Vectors
    Wenn die Merkmale des Vektors unterschiedliche Maßeinheiten aufweisen, empfiehlt es sich die Merkmale zu standardisieren. Die Merkmale werden dabei so transformiert, dass sie eine Summe von Null und eine Summe der Quadrate von Eins aufweisen.
  3. Clusteranalyse mit Vorgabe Anzahl Cluster
    Eingaben sind Merkmals-Vektoren (vector.csv).
    Eine sinnvolle Vorgabe fur die Anzahl Cluster kann man entweder durch Interpretation des Clusterbaums oder durch Versuche mit verschiedenen Vorgaben fur die Anzahl Cluster ermitteln.
    Diese Zuordnung wird als einfache Referenzdatei ausgegeben und zur visuellen Überprufung in den Blättern des Clusterbaums im Format Gebietskennzeichen:Clusternummer (Beispiel 107:3) ausgegeben. Fur eine Auswahl von 1-3 Merkmalen wird die Zuordnung zusätzlich als Plot von Punkten auf einer Gerade, Ebene oder Raum ausgegeben.
    Vektoren folgender Dimensionen kann man geometrisch als
    1. Punkte auf einer Gerade
    2. Punkte in einer Ebene
    3. Punkte im 3-dimensionalen Raum
    4. Projektion von 4- und mehr Dimensionen auf Punkte im 3-dimensionalen Raum
    interpretieren. In diesen Fällen läßt sich das Ergebnis der Clusterung (gnuplot-Graphik mit wählbaren Graphik-Ausgabeformaten) mit dem Auge auf Plausibilität uberprufen. Mathematisch kann die Anzahl der Dimensionen beliebig hoch sein, praktisch sollte man nicht uber ca. 10 Dimensionen hinausgehen, weil sonst die Interpretation der Ergebnisse zu schwierig ist. Man kann diese Zuordnung als Vorschlag betrachten, ihn im Clusterbaum auf Plausibilität prufen und evtl. zusätzliche Überlegungen heranziehen (Gebiet g passt besser zu Typ t, weil ...), um die Abbildung der Gebiete auf die Cluster endgultig festzulegen.
    Fur die Clusteranalyse kann zwischen folgenden Verfahren wählen:
  4. Übersicht. Aus einer GEM-Datei und einer Cluster-Referenzdatei wird eine Übersicht pro Cluster berechnet: Zusätzlich wird pro Cluster bzw. Clusterzentrum die Liste der zugehörigen Gebietskennzeichen ausgegeben.

Eingabedateien GEM + REFAG

Eine GEM-Datei (demographisch gegliederte Gebietseinheiten) und eine REFAG-Datei (Abbildung 100 Altersgruppen in wählbare Anzahl Altersgruppen) werden in eine Vektordatei abgebildet. Die Werte der GEM-Datei werden so aggregiert, dass pro Gebietseinheit eine Zeile mit der Anzahl Personen pro Altersgruppe entsteht. Dabei werden die Altersgruppen 0 .. 99 durch die Datei REFAG.CSV
00;1
01;1
...
79;4
auf (im Beispiel 4) zusammengefasste Altersgruppen aggregiert.
Wenn man alle 100 Altersgruppen auf zusammengefasste Altersgruppen abbildet, dann wird die Faktorenanalyse erkennen, dass ein Merkmal nichts zur Clusterbildung beitragen kann, da es eine Linearkombiation der anderen Merkmale ist. Deshalb kann man einen Teil der 100 Altersgruppen einfach undefiniert lassen (oder einen Wert kleiner oder gleich Null zuweisen), und somit die Vektordatei um ein abhängiges Merkmal reduzieren.
Bevölkerungs- und Geschlechtsgruppen sollten auch aggregiert werden, es sei denn, man will den Ausländeranteil oder den Frauenuberschuß fur die Clusterung verwenden.
Mit der Option "Normieren auf Anteil Altersgruppe am Gebiet" werden die Daten unabhängig von der Anzahl Einwohner im Gebiet.

Zwischendatei Vektor

Die Vektordatei kann auf folgende Arten erzeugt werden
vector.csv csv-Datei mit einem Merkmalsvektor pro Gebietseinheit.
Eine optionale Überschriftszeile enthält Merkmalsnamen
Ein Merkmalsvektor (Zeile) beginnt mit einem Gebietskennzeichen
gefolgt von n numerischen Merkmalen wie z.B.
Attraktivität, Altersstruktur, Wanderungsverhalten, etc.
Beispiel:
#   ; 0-30; 67-99; Abiturienten
1001; 0,32;  0,24; 0,44
1002; 0,20;  0,42; 0,39
...
Die Vektordatei kann "missing values" (Merkmal besteht nur aus Leerstellen) enthalten, diese werden von der Clusteranalyse korrekt als "missing values" und nicht als Null interpretiert.
Die Vektordatei sollte in einem eigenen Unterverzeichnis angelegt werden, da nachfolgend in diesem Verzeichnis viele Ausgabedateien entstehen.

Ausgabedateien

Die Cluster-Analyse erzeugt folgende Ausgabedateien:
vector_tool_index.htm Indexdateien fur Ergebnisse von tool (hclust, kmeans, kmedoids, soms)
vector_vec.htm Statistik Eingabevektor
vector_vno.csv
vector_vno.htm
Auf Summe = 0 und Summe der Quadrate = 1 standardisierter Vektor
(falls Option angefordert)
vector_tool_gph.ext Baumstruktur an der sich die Clusterung ablesen läßt im gewählten Graphik-Ausgabeformat
vector_tool_plt.ext
vector_tool_plt.txt
Plot von 1-3 Dimensionen der Vectordatei
ext ist je nach gewähltem Graphik-Ausgabeformat.
vector_tool_ref.csv Referenzdatei, die jeder Gebietseinheit eine Cluster-Nummer zuweist.
Die Anzahl der gewunschten Cluster wird vorgegeben

Plots veranschaulichen bei 1-3 Merkmalen die Clusterbildung sehr gut, bei 3 Merkmalen kann man im gnuplot-Fenster (Graphik-Ausgabeformat wxt) das 3D-Bild drehen, um einen Eindruck von der räumlichen Verteilung der Punkte zu bekommen. Bei mehr als 3 Merkmalen sieht man eine Projektion auf 3-Dimensionen, d.h. die Aussagekraft wird geringer.
vector entpricht dem ausgewählten Dateinamen fur die Vektordatei,
tool entspricht dem Werkzeug gem (Verdichtung GEM-Datei), hclust, kmeans, kmedoids, SOM (Clusteralgorithmen) und ref (Summary).

Eingabemaske

Die meisten Parameter der Eingabemaske sind selbsterklärend, fur folgende mögen diese Hinweise nutzlich sein