# Daten
Daten beherrschen die Welt - aber wer beherrscht die Daten? In sechs Wochen lernen wir den Datenbegriff kennen, bearbeiten Daten in einer Tabellenkalkulation, kombinieren Daten aus verschiedenen Quellen und schreiben Code, um Daten zu verändern.
* [[gf_informatik:daten:spreadsheets]]
* [[gf_informatik:daten:spreadsheets2]]
++++ Hide|
* [[gf_informatik:daten:notentabelle|]]
* [[gf_informatik:daten:sheets4beginners|]]
++++
* [[gf_informatik:daten:diagramme]]
* [[gf_informatik:daten:diagramme:luegen]]
++++ Hide|
++++
* [[gf_informatik:daten:processing]]
* [[gf_informatik:daten:processing:dictionaries]]
* Für Fortgeschrittene: [[gf_informatik:daten:processing:dictionaries_tutorial]]
* [[gf_informatik:daten:processing:maps]]
++++Nur für LP sichtbar:|
Weitere Inhalte (noch nicht fertig):
* [[gf_informatik:daten:opendata|Datenquellen kombinieren, Open Data]]
* Datenbegriff
* Was ist das, "Daten"? - Information. Bsp. Temperaturmessungen an mehreren Messpunkten über die Zeit, Einkommen jedes Haushalts für ein Land.
* Oft haben wir eine Vielzahl von Einträgen (*Zeilen*, *Records*), von denen jeder einer bestimmten Struktur (z.B. Spalten in einer Tabelle) gehorcht.
* Grosse Datenmengen müssen zusammengefasst (*aggregiert*) werden, um sinnvoll damit umgehen zu können
* Durchschnitt: Mittlere Temperatur pro Station, Durchschnittseinkommen der Schweiz
* Summe: Gesamteinkommen (Marktgrösse) aller Haushalte
* Quantile: Einkommen der untersten / obersten 10% aller Haushalte
* Daten & Tabellen
* Materialien:
* https://rothe.io/?page=ict/spreadsheet/index
* Rohdaten erfassen in Google Sheets / Excel
* Daten umwandeln (Zell-Referenz, Formeln)
* Daten zusammenfassen (Durchschnitt, Summe)
* Ideen:
* Temperaturmessungen (Umwandlung Fahrenheit, Durchschnitt...)
* Notentabelle (Durschnitt, Runden, Gewichtung)
* Diagramme
* Säulen, Linien, Karte
* https://www.callingbullshit.org/tools/tools_proportional_ink.html
* [[gf_informatik:daten:opendata|Datenquellen kombinieren, Open Data]]
* Daten im Code (ev.)
* CSV lesen & schreiben
* Parallelisieren, Sharding
* Moore's Law, Parallelism vs. Higher Computing Speeds
* Speed-Up
* Konsequenzen für Data Processing
* Summe lässt sich parallel in vielen Threads berechnen, Durchschnitt nicht direkt (nur via Summe / Anzahl), Median gar nicht.
* Python High-Level Parallelism
* Forget Threads...
* Async & Await
* Map-Reduce Intro: wie Google die Websuche neu erfand.
== Lernziele ==
* Tabellen
* Du kannst Tabellen, Arbeitsblätte, Zeilen & Spalten verwenden
* Sortieren & Filtern
* Auswählen und Kopieren
* Formeln & Bezüge
* Einfache Rechnungen durchführen (Grundrechenoperationen)
* Bezüge verwenden inklusive $-Notation für absolute Bezüge
* Du kennst die folgenden Funktionen: SUM, SUMPRODUCT, AVG, MROUND
* Automatisches Ausfüllen mit Ziehen und Copy-Paste.
* Diagramme:
* Säulen und Liniendiagramm
* Proportional Ink Rule
* Achsen-Kürzungen verstehen
* Open Data:
* Du kennst mehrere Datenseiten, die offene Daten zur Verfügung stellen.
* ... und kannst dort Daten finden zu Themen, die dich interessieren.
* Du kennst die Probleme, die sich ergeben, wenn zwei unterschiedliche Datenbanken verknüpft werden (unterschiedliche Definitionen...)
* (opt.) Data in Python
* Du kannst Daten im CSV-Format einlesen und exportieren.
* Du kannst Daten in Python aggregieren (Mittelwert, Median, Summe, Anzahl)
* Du kannst die Datenbearbeitung parallel ausführen.
* Du kennst das Prinzip des Sharding
++++