# Daten Daten beherrschen die Welt - aber wer beherrscht die Daten? In sechs Wochen lernen wir den Datenbegriff kennen, bearbeiten Daten in einer Tabellenkalkulation, kombinieren Daten aus verschiedenen Quellen und schreiben Code, um Daten zu verändern. * [[gf_informatik:daten:spreadsheets]] * [[gf_informatik:daten:spreadsheets2]] ++++ Hide| * [[gf_informatik:daten:notentabelle|]] * [[gf_informatik:daten:sheets4beginners|]] ++++ * [[gf_informatik:daten:diagramme]] * [[gf_informatik:daten:diagramme:luegen]] ++++ Hide| ++++ * [[gf_informatik:daten:processing]] * [[gf_informatik:daten:processing:dictionaries]] * Für Fortgeschrittene: [[gf_informatik:daten:processing:dictionaries_tutorial]] * [[gf_informatik:daten:processing:maps]] ++++Nur für LP sichtbar:| Weitere Inhalte (noch nicht fertig): * [[gf_informatik:daten:opendata|Datenquellen kombinieren, Open Data]] * Datenbegriff * Was ist das, "Daten"? - Information. Bsp. Temperaturmessungen an mehreren Messpunkten über die Zeit, Einkommen jedes Haushalts für ein Land. * Oft haben wir eine Vielzahl von Einträgen (*Zeilen*, *Records*), von denen jeder einer bestimmten Struktur (z.B. Spalten in einer Tabelle) gehorcht. * Grosse Datenmengen müssen zusammengefasst (*aggregiert*) werden, um sinnvoll damit umgehen zu können * Durchschnitt: Mittlere Temperatur pro Station, Durchschnittseinkommen der Schweiz * Summe: Gesamteinkommen (Marktgrösse) aller Haushalte * Quantile: Einkommen der untersten / obersten 10% aller Haushalte * Daten & Tabellen * Materialien: * https://rothe.io/?page=ict/spreadsheet/index * Rohdaten erfassen in Google Sheets / Excel * Daten umwandeln (Zell-Referenz, Formeln) * Daten zusammenfassen (Durchschnitt, Summe) * Ideen: * Temperaturmessungen (Umwandlung Fahrenheit, Durchschnitt...) * Notentabelle (Durschnitt, Runden, Gewichtung) * Diagramme * Säulen, Linien, Karte * https://www.callingbullshit.org/tools/tools_proportional_ink.html * [[gf_informatik:daten:opendata|Datenquellen kombinieren, Open Data]] * Daten im Code (ev.) * CSV lesen & schreiben * Parallelisieren, Sharding * Moore's Law, Parallelism vs. Higher Computing Speeds * Speed-Up * Konsequenzen für Data Processing * Summe lässt sich parallel in vielen Threads berechnen, Durchschnitt nicht direkt (nur via Summe / Anzahl), Median gar nicht. * Python High-Level Parallelism * Forget Threads... * Async & Await * Map-Reduce Intro: wie Google die Websuche neu erfand. == Lernziele == * Tabellen * Du kannst Tabellen, Arbeitsblätte, Zeilen & Spalten verwenden * Sortieren & Filtern * Auswählen und Kopieren * Formeln & Bezüge * Einfache Rechnungen durchführen (Grundrechenoperationen) * Bezüge verwenden inklusive $-Notation für absolute Bezüge * Du kennst die folgenden Funktionen: SUM, SUMPRODUCT, AVG, MROUND * Automatisches Ausfüllen mit Ziehen und Copy-Paste. * Diagramme: * Säulen und Liniendiagramm * Proportional Ink Rule * Achsen-Kürzungen verstehen * Open Data: * Du kennst mehrere Datenseiten, die offene Daten zur Verfügung stellen. * ... und kannst dort Daten finden zu Themen, die dich interessieren. * Du kennst die Probleme, die sich ergeben, wenn zwei unterschiedliche Datenbanken verknüpft werden (unterschiedliche Definitionen...) * (opt.) Data in Python * Du kannst Daten im CSV-Format einlesen und exportieren. * Du kannst Daten in Python aggregieren (Mittelwert, Median, Summe, Anzahl) * Du kannst die Datenbearbeitung parallel ausführen. * Du kennst das Prinzip des Sharding ++++