Seite anzeigenÄltere VersionenLinks hierherCopy this pageFold/unfold allNach oben Diese Seite ist nicht editierbar. Du kannst den Quelltext sehen, jedoch nicht verändern. Kontaktiere den Administrator, wenn du glaubst, dass hier ein Fehler vorliegt. # Data Processing in Python {{ :gf_informatik:daten:dataprocessing.pptx | Präsentation}} Wir haben nun einige Erfahrung gesammelt, um mit Tabellenprogrammen Daten zu bearbeiten und darzustellen. Aber was, wenn wir *mehr* Daten haben, als Excel darstellen kann? Wieviel ist viel? 1000? #### Aufgabe 1 Finde heraus, bei wie vielen Zeilen Excel oder Google Sheets in die Knie gehen. ## Dateien einlesen Grossen Datenmengen sind natürlich nur ein Grund, weshalb wir mit einem Programm Daten lesen und schreiben wollen. Andere Gründe: wir wollen Benutzerdaten lesen oder speichern können, den Programmzustand abspeichern (und beim Neustart wieder einlesen), etc. Wie lesen wir Daten in einer Text-Datei? <code python> # Opens a file for reading (and closes it again after the 'with'). with open('dateiname.txt', 'r') as infile: count = 0 # Loops over all lines in the file for line in infile: count += 1 print(count) </code> * Wenn Dateien gelesen oder geschrieben werden, müssen sie beim Betriebssystem reserviert werden. Mit `with` wird sichergestellt, dass die Datei nicht offen bleibt sondern nach dem Lesevorgang wieder geschlossen wird. * Die Datei (hier 'dateiname.txt') muss sich im gleichen Ordner befinden wie die Python-Datei. * `'r'` bedeutet *read*, dass die Textdatei nur gelesen und nicht verändert wird. #### Aufgabe 2 Lade die Datei [[https://kantonsschuleromanshorn.sharepoint.com/:f:/s/FSInformatik/Ek-Hi_stH2RMjDa-wQN9jekBMeF_YD6rvhmibDlNglGWxw?e=Y3AX65|gemeinden.csv]] herunter und speichere sie im Ordner, wo du dein Python-Programm abspeicherst. Verwende obigen Python-Code, um herauszufinden, wieviel Zeilen die Datei hat . ## Dateien schreiben Schreiben funktioniert ganz ähnlich wie lesen, aber als zweites Argument muss `'w'` (für _write_) angegeben werden: <code python> with open('dateiname.txt', 'w') as outfile: for i in range(10): line = "Zeile " + str(i) + "\n" outfile.write(line) </code> Beachte: * `str()` verwandelt die Zahl in einen Text. * `'\n'` ist der ASCII-Code für einen Zeilenumbruch. #### Aufgabe 3 Beschreibe eine Datei mit einigen Zeilen. Es ist ungünstig, mehr als einige zehntausend Zeilen zu schreiben... ## CSV-Format Die Datei `gemeinden.csv` ist im [[wpde>CSV_(Dateiformat)|Comma-Separated-Values]] Format gespeichert: Die Daten sind ganz ähnlich gespeichert wie in einer Tabelle und können auch mit Excel und Sheets geöffnet werden. Jede Zeile entspricht einer Zeile der Tabelle; die Spalten sind meist mit Kommas voneinander getrennt. Manchmal werden aber auch Semikolons oder ein Tabulator (`\t`) als Trennzeichen verwendet. Oft werden in der ersten Zeile die Namen der abgespeicherten Werte festgelegt: <code csv> Gemeinde,Kanton,Einwohner,Fläche Aadorf,TG,9216,19.93 Aarau,AG,21726,12.36 ... </code> Wollen wir eine Zeile in die einzelnen Werte aufspalten, müssen wir dafür ein paar String-Operationen kennen: * `split(char)` erzeugt aus einem String eine Liste von Werten, die mit dem angegebenen Trennzeichen abgetrennt sind: * `"Aarau,AG,21726,12.36".split(',')` erzeugt die Liste `["Aarau","AG","21726","12.36"]` * `strip()` gibt den selben String zurück, aber ohne Leerschläge an beiden Enden. #### Aufgabe 4 Wandle den Code aus Aufgabe 2 so ab, dass jeweils der Kanton auf der Konsole ausgegeben wird: * Jede Zeile wird mit `values = line.split(',')` aufgeteilt. * Mit `print(values[1])` wird der Kanton (die zweite Spalte) ausgegeben. * Wieviele Gemeinden gibt es im Kanton Thurgau? Wieviele im Kanton Bern? <nodisp 1> ++++Lösung:| <code python> with open('gemeinden.csv', 'r') as infile: be = 0 tg = 0 for line in infile: tokens = line.split(',') canton = tokens[1] if canton == 'TG': tg = tg + 1 elif canton == 'BE': be = be + 1 print("Bern", be) print("Thurgau", tg) </code> ++++ </nodisp> ## Text in Zahlen umwandeln. Alles, was wir aus der Textdatei lesen, ist... well, Text. Damit wir mit den Werten rechnen können, müssen wir die Strings umwandeln. Dazu verwenden wir die folgenden eingebauten Funktionen: * `int(string)` wandelt einen String in eine Ganzzahl (*integer*) um. * `float(string)` wandelt einen String in eine reelle Zahl (*floating point number* - Fliesskommazahl) um. Allerdings funktioniert das nur, wenn der String auch wirklich eine Zahl darstellt. Sonst wird eine *Exception* geworfen; wir können sie mit `try...except` auffangen: <code python> try: my_number = int("abc") # may throw an exception print(my_number) # only executes if the above was successful except ValueError: pass # executed if an exception was thrown </code> #### Aufgabe 5 Benütze `try...except` um in deinem Code die Bevölkerung und die Fläche der Gemeinden auszulesen. * welche Spalten (Indices) gehören zu diesen Werten? * verwendest du `int()` oder `float()`? #### Aufgabe 6 Schreibe Python-Code, um die folgenden Fragen zu beantworten: * Was ist die Gemeinde mit der kleinsten Bevölkerungszahl? * Welche Gemeinde hat die grösste Fläche? * Wieviele Einwohner hat die Schweiz? ++++Lösung:| * kleinste Bevölkerung: Kammersrohr (32 Einwohner) * grösste Fläche: Scuol ($438.76 km^2$) * Einwohner: $8670125$ ++++ #### Aufgabe 7 Erweitere den Code, um folgende Fragen zu beantworten: * Welches ist die Thurgauer Gemeinde mit den wenigsten Einwohnern? * Was ist die Gesamtfläche aller Tessiner Gemeinden? * Wieviele Gemeinden hat der Kanton Glarus? ### Nächstes Kapitel Weiter mit [[gf_informatik:daten:processing:dictionaries]]. gf_informatik/daten/processing.txt Zuletzt geändert: 2024-06-10 10:45von hof