Zeitreihen Visualisierung

Plausibilitätsprüfung von Eingabedaten und Prognoseergebnissen

X/Y-Plot Eckwerte

X/Y-Plot einer SIKURS-Zeitreihen/Eckwert-Datei, d.h. einer csv-Datei mit Spalten für Jahr (oder einen anderen aufsteigenden Wert für die X-Achse), Schlüssel und Wert in wählbaren Graphik-Ausgabeformaten.

Merkmale aus Eingabedatei

Merkmale (Spalten) können mit den Nummern 1, 2, 3, ... für die erste, zweite, dritte, ... -Spalte, oder mit den Zahlen -1, -2, -3 ... für die letzte, vorletzte, drittletzte, ... Spalte ausgewählt werden.

X-Achse

Die Spalte für die X-Achse muss einen aufsteigenden Wert enthalten, z.B. Jahr (meist Spalte 1) oder Alter (meist vorletzte Spalte)

Schlüssel

Beim Schlüssel können mehrere Spalten angegeben werden, z.B. 2 3 4. Wenn weniger Indexspalten angegeben werden, als die Eingabedatei enthält, dann wird uber die fehlenden Indices aggregiert.

Geschlecht

Eine Spalte für das Merkmal Geschlecht wird nur angegeben, wenn die Zeitreihe geschlechtsspezifisch aufbereitet werden soll: männlich wird als negative Werte unter der x-Achse, weiblich wird als postive Werte uber der x-Achse ausgegeben. Beispiel: Bei einer Zeitreihendatei zr_gem.csv aus gem-Dateien, kann man mit Spalte Jahr = 1, Schlussel = 2 3, Geschlecht = 4 und Flächenplot je Wert einen anschauliche geschlechts- und Bevölkerungsgruppen- spezifische Zeitreihenplot ausgeben.

Wert

Fur Wertespalten wird meist nur eine Spalte ausgewählt z.B. -1 als letzte Spalte. Bei Dateien mit mehreren Wertespalten wie z.B. bewgem können die gewunschten Wertespalten ausgewählt werden z.B. "5 6" für Geburten und Sterbefälle.

Auswahlfilter

Wenn nur eine Teilmenge der Datensätze verarbeitet werden sollen, so kann ein Auswahlfilter nutzen, z.B:
#1 == 2013
verwende nur Sätze mit 2013 in Spalte 1

Legende

Layout des Plots

Titel

z.B. Prognose Adorf

x-Achse

z.B. Jahr

y-Achse

z.B. Einwohner

Legende Merkmalskurven

Plazieren die Legende relativ zur Zeichenfläche
set key outsideaußerhalb rechts oben
set key right bottominnerhalb links unten
set key left topinnerhalb links oben
set key offnirgends
Siehe gnuplot unter set key für weitere Optionen

Referenzdatei Schlusselwerttext

Bei einer Eingabe von 'refkeytxt' wird die Referenzdatei 'refkeytxt.csv' im gleichen Verzeichnis wie die Eingabedatei gesucht. Aufbau der Referenzdatei bei einer Schlusselspalte

 1;Alter  0-24
 2;Alter 25-64
 3;Alter 65-99

bzw. bei mehreren Schlusselspalten

 1;0;Neugeborenes männlich
 1;1;ein Jahr männlich
 ...
 2;0;Neugeborenes weiblich
 ...

Wenn ausschließlich Wertespalten vorgegeben werden, dann wird der Titel eines Linenplots der Spaltenüberschrift der Eingabedatei (falls vorhanden) entnommen.

Plotart

Bei Linienplot Absolutwerte wird jeder Wert als Linienplot über die Jahre dargesellt.

linespointsmit Linien und Punkten
linesmit Linien
pointsmit Punkten
stepsmit Stufen (siehe Sterbetafel)
(für weitere Optionen dots fsteps histeps siehe gnuplot)

Bei Flächenplot je Wert stellt jeder farbige Balken den Wert eines Merkmals dar, die oberste Linie im Plot zeigt die Aggregation uber alle Merkmale.

Bei Histogramm wird für jedes Jahr ein für dieses jahr gleichbleibender Wert dargestellt. Das Histogramm kan nicht geschlechtsspezifisch aufbereitet werden.

y-Wertebereich

Wenn eine Spalte Geschlecht gewählt wurde, sind *:* -1400:1500, sonst 0:* *:* 1200:1400 sinnvoll
Will man eine logarithmische Skalierung der Y-Achse (z.B. bei Geburten-/Sterberaten), wählt man z.B.
*:* logfalls Eingabedatei keine Werte = 0 enthält
0.0001:* log
1e-5:1e0 log[scale] [y [10]]
2**-5:2**0 logscale y 2
(siehe Gnuplot: set logscale)

Eingabedateien

Fur Zeitreihen mit Jahr als x-Achse

Sikurs Eingaben:

eckgeb, eckgem, eckreg, eckstrb, ecktyp, neubaub, neubauzu, wegvol, zuvol

Sikurs Ausgaben:

agg, abgm, bewgem, bewgemagg (Sonderfall Bilanz-Bewegung), bewagg, zr_gem

für Histogramme nach anderen Merkmalen

z.B. ecktyp mit Typ für die x-Achse

Beispiele:

1. Linienplot der Entwicklung der Altersklassen 0-24, 25-64, 65 und älter.

Schritte:

1. Prognose .../besipiel/regtest/nbb.ini 1992 bis 2030

2. Zeitreihe mit Aggregation uber Bevölkerungsgruppen, Geschlecht und Referenzdatei refag3.csv für das Alter:

 00;1
 ...
 24;1
 25;2
 ...
 64;2
 65;3
 ...
 99;3

3. Visualisierung Zeitreihen - Start X/Y-Plot zr_gem.csv

 5             Schlussel
 ../refag3txt  Referenzdatei Schlusseltexte
 (*)           Linienplot Absolutwerte

Die Datei refag3txt.csv muss im gleichen Verzeichnis wie zr_gem.csv sein, oder die relative Position zu zr_gem.csv wir angegeben (zr_gem.csv ist im Verzeichnis .../Sikurs/Beispiel/regtest/nbb, ../refag3txt bedeutet dass refag3txt.csv im nächst höheren Verzeichnis .../Sikurs/Beispiel/regtest gesucht wird)

4. Optionale Optimierung Plot-Layout

Start/Visualisierung/gnuplot

und Auswahl der gnuplot-Kommandodatei pltzr.txt

Ergebnis:

als Linienplot
Zeitreihenplot Altersstruktur

oder als Flächenplot
Zeitreihenplot Altersstruktur

2. Vergleiche Entwicklung von Indikatoren einer Variantenprognose

siehe Variantenprognose

3. Sterbetafel

mit Altersgruppe als Zeitachse und linearer und logarithmischer y-Achse:
[2  ] x-Achse
[1  ] Schlüssel
[3  ] Wert
(*) Linienplot Absolutwerte [steps ]
[0:* ] y-Wertebereich
[1e-5:1 log ] y-Wertebereich

Graphik-Ausgabeformat

Graphik-Ausgabe-Formate beschreibt die zur Wahl stehenden Formate wxt, gif, png, ...

Animiertes Histogramm (experimentell)

TkHist.pm - visualisiere Zeitreihe als animiertes Histogramm der Aussageneinheit (Gebiet/Typ/Aggregat)

Wähle eine Datei
DateiInhalt
gemBevölkerung nach Bevölkerungs-, Geschlechts- und Altersgruppen
zr_gemaggregierte Zeitreihe Bevölkerung
bewBewegungen (vorher mit bew2pivot in pivotfähiges Format umformen)
haushaltAnzahl der Haushalte (ANZH) nach dominanter Familienbeziehung (HDO) und Haushaltsgröße (HGr)
hdo2Haushalte mit Kindern, HDO2=21: allein Erziehend, HDO2=22 : nicht allein Erziehend
kinderHaushalte mit Kindern (HDO=2) nach der Zahl der Kinder (1,2,3,4 u.m.)
personAnzahl der Personen (ANZP) nach dominanter Familienbez. (PDO), Geschlecht (G), Altersgrppe (AGR) und Haushalten nach dominanter Familienbez. (HDO)
Die Datei zr_gem, kann wie folgt erstellt werden:
Hauptmaske/Ergebnis Zeitreihe/Aggregation
Jahrkeine
GKZkeine oder "reftyp 1 3" oder "reftyp 1 4"
BGkeine oder "alle Ausprägungen"
GGkeine oder "alle Ausprägungen"
AGalle oder "refag 1 2" mit 2-20 Altersklassen
Wähle Parameter
Spalte für Jahrzur Animation
Spalte für BalkenkennungGebiet/Typ oder Aggregat
Spalte für Balkenteilungzr_gem: 3 BG (oder 4 GG oder 5 AG)
bew: 3 Bewegungsart (oder 4 BG, 5 GG, 6 AG)
Haushalte: 4 HDO, 5 HHGr
Normierung Balkenbleibt das Feld leer (=keine Normierung, dann entspricht die Balkenhöhe der Bevölkerunganzahl der Aussageneinheit
Bei einer Zahl > 0 werden die Werte auf diese Zahl skaliert (z.B. 100 für Prozent oder 1000 für Promille). Damit läßt sich die Verteilung von Altersgruppen (z.B. 0-19 jung, 20-64 erwerbstätig, 65-00 alt), der Geschletsgruppen oder der Bevölkerungsgruppen der Aussageneinheiten vergleichen
Bildgröße800,600
Y-Wertebereich0:70000
Beschriftungsgrößetiny, small, medium, large, giant
Animationspause /100 s100
Legende X-Achse"" oder "reftyp 1 2"
zur Ausgabe der Gebietskennziffer oder des Gebietnamens
Legende Balkenteilung"" oder "AG|GG|BG" oder "refbar 1 2"
zur Ausgabe der Gruppennummer (AG, GG, BG) oder einer Gruppenbezeichnung (0-19, männlich, Deutsch)
Merkmalsanordnung im Balken0 absteigend - für BG gut geeignet, 1 aufsteigend - meist zu bevorzugen
Das Balkendiagramm wird als animated gif ausgegeben und im Browser angezeigt. Das Diagramm zeigt für jedes Jahr ein Bild, pro Aussageneinheit einen Balken und pro Balken BG, GG oder aggregierte Altersgruppen.

Verflechtungsmatrix als animierte Kreise/Torten/Farbpalette

Visualisiere Binnenwegzug, Außenwegzug oder Außenzuzug

Zeige die Verflechtung einer Binnenstrommatrix (strom.csv gstrom.csv, gstrom_weg.csv, gstrom_zu.csv) oder Außenwegzugsmatrix ([g]wegzug.csv [g]reaa.csv) oder Außenzuzugsmatrix ([g]zuzug.csv [g]neba.csv) als Kreise, Farbpalette oder Tortendiagramme.

Enthält die Eingabedatei Gebietskennzeichen (g*.csv), so werden diese automatisch in Gebietsnummern umgewandelt.
Dies entspricht der mamuellen Aggregation:

SIKURS Hauptmaske/Ergebnis/Zeitreihe/Optionen/Eingabedatei-Typ gstrom
SIKURS Hauptmaske/Ergebnis/Zeitreihe/Start
Aggreation über
[ keine        ] Jahr
[ reftyp 1 0   ] Gebietskennzeichen
[ reftyp 1 0   ] Gebietskennzeichen
[ keine        ] Bevölkerungsgruppe
...

Kreise werden so dargestellt, dass deren Fläche proportional zur Summe über die demographische Gliederung ist.
Wenn vorher mit
Visualisierung Pyramiden/Einzelpyramiden
alle Pyramiden der Stromdatei als animated gif erzeugt wurden, so werden die Kreise mit den Pyramiden verlinkt

Farbpalette in 2 Varianten wählt eine zur Summe über die demographische Gliederung passende Farbe. Diese Darstellung mag bei sehr großen Wanderungsmatrizen günstiger als die Kreisdarstellung sein.

Tortendiagramme:
Aufbau Referenzdatei für demographische Gliederung

Typ 0 und nicht definiert wird als fehlendes Tortenstück, 1,2,... als Tortenstück 1,2,... dargestellt
Wird keine Referenzdatei ausgewählt, werden alle demographischen Gruppen auf Typ 1 abgebilder.
Damit lassen sich Ströme differenziert nach Bevölkerungsgruppe Geschlecht oder nach einigen Altersgruppen (Kinder, Erwachsene, Alte) oder nach Kombinationen (junge Frauen, alte Männer, ...) darstellen.
Die Tortendiagramme können auf gleiche Größe oder proportional zum Stromvolumen skaliert werden.

Der Benutzer kann die Ausgabedatei [g]strom_agg.csv weiterverarbeiten (z.B. die Differenz aus 2 Prognosevarianten bilden) und diese dann wieder mit diesem Programm visualisieren. Wählbar sind

Zur Visualisierung einer demographischen Gruppe (z.B. ausländische Mädchen zwischen 14 und 17) kann man diese Gruppe mit Hilfe Ergebnisse/Zeitreihe aus der Eingabedatei extrahieren.

Beachte: bei der Darstellung von STRMyyyy.CSV oder WEGZyyyy.CSV ist die Interpretation schwierig, da die Wegzugswahrscheinlichkeiten über die demographische Differenzierung aufaddiert wird. Wenn man eine durchschnittliche Wegzugswahrscheinlichkeit darstellen will, dann kann man die Dateien STRM bzw. WEGZ mit 1/(NBG*NGG*NAG) skalieren (z.B. mit Extras/Eigene Scripts/Start/scale)

Anhaltspunkt für Wahl der Grafik-Parameter je nach Anzahl Typen

TypenGrößeFont
23002
103002
206002
506002
10010001
20030001
50035001
100035001
Browser begrenzen die maximale Größe der darsellbaren GIF-Datei, andere Viewer (z.B. ACDSee) nicht.
PDF bietet sich bei sehr großen Matrizen an, da sich die Anzeige zoomen läßt.

Ausgabe Stromkreise im gnuplot-Format

In diesem Format kann man die Typnummern 1, 2, 3, ... in der Graphik durch Schlüsselnummern oder Namen ersetzen, wenn man in der Datei pltstromkreise.txt
plot '-' notitle
ersetzt durch
plot '-' using 1:2:xtic(3):y2tic(3) with points pt 0 notitle
0 0
1 1 eins
2 2 zwei
3 3 drei
...
e

Kacheldiagramm

siehe Online-Hilfe beim Start des Tools und roadmap 012