© Krall.Evelyne/Shutterstock.com, © Arizzona Design/Shutterstock.com
Interaktive Dashboards mit Python und Dash von plotly

Wir visualisieren die Corona-Pandemie


Seit Februar werden wir in den Medien mit Diagrammen und Grafiken zur Ausbreitung des Coronavirus überschüttet. Die Daten kommen aus frei zugänglichen Quellen und sind für jeden nutzbar. Doch wie wird aus den Quelldaten ein Datensatz, mit dem beispielsweise ein Dashboard erstellt werden kann? Mit Python und Modulen wie pandas ist das keine Zauberei.

Es sind schon verrückte Zeiten, in denen wir seit Anfang 2020 leben. Eine Viruspandemie hat das öffentliche Leben auf den Kopf gestellt. Nachrichtenseiten bieten Liveticker mit den neuesten Meldungen zu Infektionen, Genesungen und Sterberaten. Es existiert kein Medium, in dem nicht ein Diagramm zur Visualisierung benutzt wird. Institute wie das Robert-Koch-Institut (RKI) oder die Johns-Hopkins-Universität stellen Dashboards zur Verfügung. Wir leben in einer von Daten dominierten Welt, auch während einer Pandemie.

Das Gute: Die meisten Daten zur Pandemie sind öffentlich zugänglich. Die Johns-Hopkins-Universität etwa stellt ihre Daten in einem offenen GitHub-Repository zur Verfügung. Was liegt also näher, als mit diesen frei zugänglichen Daten ein eigenes Dashboard zu erstellen? Wie man von der Datenbereinigung über die Anreicherung der Daten aus anderen Quellen bis zur Dashboarderstellung mittels Dash von Plotly gelangt, beleuchtet dieser Artikel anhand der Daten zu Corona. Vorab ein wichtiger Hinweis: Die Daten werden in keiner Weise interpretiert oder inhaltlich analysiert. Das muss Fachleuten wie Virologen überlassen werden, da sonst falsche Rückschlüsse gezogen werden können. Auch wenn die Daten für annähernd alle Länder vorliegen, sind diese nicht unbedingt vergleichbar. Jedes Land nutzt andere Methoden zum Testen der Infektionen. Manche Länder haben gar zu wenige Tests, sodass hier kein einheitliches Bild entstehen kann. Der Datenbestand dient nur als Beispiel.

Erst die Arbeit

Um die Daten nutzen zu können, müssen wir sie für unsere Zwecke in eine einheitliche Form bekommen. Die Daten der Johns-Hopkins-Universität werden tagesaktuell in einem GitHub-Repository [1] abgelegt. Prinzipiell sind sie in zwei Kategorien unterteilt: zum einen fortlaufend als Time-Series-Data und zum anderen als täglicher Report in einer eigenen CSV-Datei. Für das Dashboard benötigen wir beide Quellen. Mit den zeitlich eingeordneten Daten ist es ein Leichtes, Liniendiagramme zu erzeugen und Steigerungen, Kurvenverläufe etc. zu plotten. Daraus generieren wir später den zeitlichen Verlauf der Fallzahlen als Liniendiagramm. Weiterh...

Exklusives Abo-Special

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang