Uke 12 - matplotlib / CSV

Obs

matplotlib er et eksternt bibliotek som vi må installere først. Du kan bruke dette programmet

import sys

libs = ['matplotlib','numpy','pandas']

cmd = f"{sys.executable} -m pip install --user {' '.join(libs)}"

ans = input(f"\n\nType 'yes' to try direct install of {libs}: ")
if ans == "yes":
    from subprocess import run
    run(cmd.split())
else:
    print("copy this line into the terminal:\n")
    print(cmd)
    print()

install.py.

Matplotlib

Du kan bruke matplotlib til å visualisere data. Slik som de fleste python-biblioteker, har matplotlib en veldig god dokumentasjon på nettet. Her skal vi bare se på noen enkle bruk av biblioteken.

Les gjennom Intro to pyplot. De bruker et annet eksternt bibliotek, numpy, i noen av eksemplene for å lage lister med verdier. Vi skal se på numpy neste uke, denne uken skal vi bare bruke vanlige lister som input.

Om du er interessert kan du finne flere eksempler til bruk av matplotlib på Sample Plots.

Her er et enkelt eksempel på pyplot (eksempel_1.py):

import matplotlib.pyplot as plt
from math import sin

# liste med x-verdier
xs = [n / 10 for n in range(101)]
# 2 ulike lister med y-verdier
ys_1 = [sin(x) for x in xs]
ys_2 = [3 * sin(x) for x in xs]

plt.plot(xs, ys_1, "-.r")
plt.plot(xs, ys_2, "--b")

# savefig lagrer filene
plt.savefig("test.png")
plt.savefig("test.pdf")

# interaktivt vindu
plt.show()

Denne koden produserer følgende plot:

../_images/eksempel_1.png

Hva skjer om vi ikke har med den siste raden: plt.show()?

Her er et eksempel på flere grafer ved siden av hverandre (eksempel_2.py):

import matplotlib.pyplot as plt
from math import sin

xs = [n / 10 for n in range(101)]
ys = [sin(x) for x in xs]

plt.subplot(221)
plt.plot(xs, ys, "-.r")
plt.ylabel("y")

plt.subplot(222)
plt.plot(xs, [3 * y for y in ys], "--y")

plt.subplot(223)
plt.plot(xs, ys, "-.k")
plt.xlabel("x")

plt.subplot(224)
plt.plot(xs, [3 * y for y in ys], "--b")

plt.suptitle("Several plots")
plt.show()

Denne koden produserer følgende plot:

../_images/eksempel_2.png

Jo flere datapunkter du bruker, desto høyere oppløsning får grafen din. Her er et eksempel på dette (eksempel_3.py):

import matplotlib.pyplot as plt
from math import sin

def square_wave(x):
    return ( # bruker parentes her slik at vi kan formatere over flere linjer
        sin(x)
        + 1 / 3 * sin(3 * x)
        + 1 / 5 * sin(5 * x)
        + 1 / 7 * sin(7 * x)
        + 1 / 9 * sin(9 * x)
    )


# Lower resolution
xs = [n / 5 for n in range(51)]
ys = [square_wave(x) for x in xs]
plt.plot(xs, ys, label="51 points")

# Higher resolution
xs = [n / 100 for n in range(1001)]
ys = [square_wave(x) for x in xs]
plt.plot(xs, ys, label="1001 points")

# plot labels
plt.title("Resolution example")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()

plt.show()

Denne koden produserer følgende plot:

../_images/eksempel_3.png

Svar på følgende spørsmål om pyplot:

  • Hvordan lager du en plot?

  • Hvordan får du etiketter på x- og y-aksen i din plot?

  • Hvordan får du en titel høyest opp på din plot?

  • Hvordan bestemmer du farge og mønstre på grafen?

  • Hvordan får du flere grafer oppå hverandre?

  • Hvordan får du flere grafer ved siden av hverandre?

Her er et større eksempel på bruk av matplotlib.

Oppgave 1

Endre på koden i eksempel 1 slik at grafene tegnes med en annen farge og stil. Du kan velge farge og stil selv.

Obs

Filen du leverer skal hete uke_12_oppg_1.py og du skal også laste opp png-filen med plotten, med filnavnet uke_12_oppg_1.png.

Oppgave 2

Ta plottingen fra eksempel 1 og legg til minor ticks (undermerker) til x og y-aksen.

Obs

Filen du leverer skal hete uke_12_oppg_2.py og du skal også laste opp png-filen med plotten, med filnavnet uke_12_oppg_2.png.

TIPPS: Søk i dokumentasjonen til matplotlib for den enkleste løsning. Dette er mulig å løse med bare én kodelinje.

Oppgave 3

Ta plottingen fra eksempel 1 og legg til en pil til det første interseksjon-punktet etter \((0,0)\) med kommenten: Første interseksjonen. Du trenger ikke å regne ut posisjonen i programmet, du kan estimere den. Husk å søke på matplotlib-dokumentasjonen.

NB: Filen du leverer skal hete uke_12_oppg_3.py og du skal også laste opp png-filen med plotten, med filnavnet uke_12_oppg_3.png.

CSV bibliotek

CSV er et enkelt tekstbasert filformat for tabeller. Hver linje holder komma-separerte verdier (CSV: Comma-separated values). Vi skal bare gå gjennom et eksempel her, men «Automate»-boken har mer om CSV i kapittel 16 for de som er interessert.

CSV modulen er fortsett ganske «low-level», og mange skritt i dataanalyse må skrives for hånd. Den eksterne pandas-biblioteken som vi skal se litt på senere, tar bort mange av disse kjedelige oppgavene.

Oppgave 4

I filen uke_12_oppg_4.py, skriv en funsjon som heter read_first_col() og som skriver ut verdiene fra den første kolonnen i filen 2019-06-01_Oslo.csv.

Eksempelkjøring:

-5.141
12.7172
11431
...

Oppgave 5

I filen uke_12_oppg_5.py, skriv en funksjon som heter write_to_csv() og som tar to argumenter: et filnavn og en liste med rader.

Funksjonen skal lage en ny fil med filnavnet og skrive hver rad på en ny linje i csv-format.

For eksempel, hvis vi har denne lista:

rows = [
      ["Come Together", 4, 20, "Lennon/McCartney"],
      ["Something", 3, 3, "Harrison"],
      ["Maxwell's Silver Hammer", 3, 27, "Lennon/McCartney"],
      ["Oh! Darling", 3, 26, "Lennon/McCartney"],
      ["Octopus's Garden", 2, 51, "Starr"],
      ["I want you", 7, 47, "Lennon/McCartney"],
  ]

og kjører write_to_csv("Abbey_Road.csv", rows) skal vi lage en fil som heter Abbey_Road.csv og inneholder:

Come Together,4,20,Lennon/McCartney
Something,3,3,Harrison
Maxwell's Silver Hammer,3,27,Lennon/McCartney
Oh! Darling,3,26,Lennon/McCartney
Octopus's Garden,2,51,Starr
I want you,7,47,Lennon/McCartney

Oppgave 6

Bruk datafilen fra Handling CSV files

  1. Endre uke_12_oppg_6a.py og skriv ut antall bedrifter som produserer hver enkelt art (ART, kolonne 12), i alfabetisk rekkefølge.

    Eksempelkjøring:

    Abbor: 8
    Acartia tonsa **(oppdrett): 4
    Akkar: 1
    Amerikansk hummer: 2
    Arctic sea ice amphipod *: 1
    Arktisk knurrulke: 1
    ...
    
  2. Endre uke_12_oppg_6b.py og plott kun bedriftene som oppdrar Laks (ART, kolonne 12). Du må også levere png-filen med plotten, med filnavnet uke_12_oppg_6b.png.

  3. Endre uke_12_oppg_6c.py og plott FERSKVANN og SALTVANN med ulike farger (se på VANNMILJØ, kolonne 20). Du må også levere png-filen med plotten, med filnavnet uke_12_oppg_6c.png.

  4. Endre uke_12_oppg_6d.py og kom på et annet interessant spørsmål om datasettet og implementer det i plotten. Du må også levere png-filen med plotten, med filnavnet uke_12_oppg_6d.png.

Testene i 6b, 6c og 6d sjekker bare at koden kjører, de ser ikke på outputet. Det skjer kun manuelt når vi retter.

Oppgaver

Oppgave 1

Du finner Oppgave 1 nedenfor eksemplene om matplotlib.

Oppgave 2

Du finner Oppgave 2 nedenfor eksemplene om matplotlib.

Oppgave 3

Du finner Oppgave 3 nedenfor eksemplene om matplotlib.

Oppgave 4

Du finner Oppgave 4 nedenfor eksemplet om CSV-bibliteket.

Oppgave 5

Du finner Oppgave 5 nedenfor eksemplet om CSV-bibliteket.

Oppgave 6

Du finner Oppgave 6 nedenfor eksemplet om CSV-bibliteket.