Daten beherrschen die Welt - aber wer beherrscht die Daten? In sechs Wochen lernen wir den Datenbegriff kennen, bearbeiten Daten in einer Tabellenkalkulation, kombinieren Daten aus verschiedenen Quellen und schreiben Code, um Daten zu verändern.
Nur für LP sichtbar:
Weitere Inhalte (noch nicht fertig):
Datenbegriff
Was ist das, „Daten“? - Information. Bsp. Temperaturmessungen an mehreren Messpunkten über die Zeit, Einkommen jedes Haushalts für ein Land.
Oft haben wir eine Vielzahl von Einträgen (Zeilen, Records), von denen jeder einer bestimmten Struktur (z.B. Spalten in einer Tabelle) gehorcht.
Grosse Datenmengen müssen zusammengefasst (aggregiert) werden, um sinnvoll damit umgehen zu können
Durchschnitt: Mittlere Temperatur pro Station, Durchschnittseinkommen der Schweiz
Summe: Gesamteinkommen (Marktgrösse) aller Haushalte
Quantile: Einkommen der untersten / obersten 10% aller Haushalte
Daten & Tabellen
Materialien:
Rohdaten erfassen in Google Sheets / Excel
Daten umwandeln (Zell-Referenz, Formeln)
Daten zusammenfassen (Durchschnitt, Summe)
Ideen:
Temperaturmessungen (Umwandlung Fahrenheit, Durchschnitt…)
Notentabelle (Durschnitt, Runden, Gewichtung)
Diagramme
-
Daten im Code (ev.)
CSV lesen & schreiben
Parallelisieren, Sharding
Konsequenzen für Data Processing
Python High-Level Parallelism
Forget Threads…
Async & Await
Map-Reduce Intro: wie Google die Websuche neu erfand.
Lernziele
Tabellen
Formeln & Bezüge
Einfache Rechnungen durchführen (Grundrechenoperationen)
Bezüge verwenden inklusive $-Notation für absolute Bezüge
Du kennst die folgenden Funktionen: SUM, SUMPRODUCT, AVG, MROUND
Automatisches Ausfüllen mit Ziehen und Copy-Paste.
Diagramme:
Open Data:
Du kennst mehrere Datenseiten, die offene Daten zur Verfügung stellen.
Du kennst die Probleme, die sich ergeben, wenn zwei unterschiedliche Datenbanken verknüpft werden (unterschiedliche Definitionen…)
(opt.) Data in Python
Du kannst Daten im CSV-Format einlesen und exportieren.
Du kannst Daten in Python aggregieren (Mittelwert, Median, Summe, Anzahl)
Du kannst die Datenbearbeitung parallel ausführen.
Du kennst das Prinzip des Sharding