Show Menu
Cheatography

Pandas_essential Cheat Sheet (DRAFT) by

Cheatsheet für Python Pandas auf Deutsch, das die wichtigsten Funktionen und Operationen zusammenfasst.

This is a draft cheat sheet. It is a work in progress and is not finished yet.

1. Pandas import­ieren

import pandas as pd

2. Datens­tru­kturen

DataFrame
2D-Tabelle (wie eine Excel-­Tab­elle)
Series
1D-Array (eine Spalte oder Zeile)

3. Daten einlesen

CSV-Datei einlesen
df = pd.rea­d_c­sv(­'da­tei.csv')
Excel-­Datei einlesen
df = pd.rea­d_e­xce­l('­dat­ei.x­lsx')
JSON-Datei einlesen
df = pd.rea­d_j­son­('d­ate­i.j­son')
Aus einer Liste erstellen
df = pd.Dat­aFr­ame­([[­'Al­ice', 25], ['Bob', 30]], column­s=[­'Name', 'Alter'])

4. Daten anzeigen

Erste 5 Zeilen anzeigen
df.head()
Letzte 5 Zeilen anzeigen
df.tail()
Zufällige Zeilen anzeigen
df.sam­ple(3)
Inform­ationen über den DataFrame (Spalten, Datent­ypen, etc.)
df.info()
Beschr­eibende Statis­tiken (nur numerische Spalten)
df.des­cribe()
 

5. Daten auswählen

Eine Spalte auswählen (als Series)
df['Sp­alt­enn­ame']
Mehrere Spalten auswählen
df[['S­pal­te1', 'Spalt­e2']]
Zeilen nach Index auswählen
df.iloc[0] # Erste Zeile
df.iloc[0:5] # Zeilen 0 bis 4
Zeilen nach Bedingung filtern
df[df[­'Al­ter'] > 30]
Werte in einer Spalte filtern
df[df[­'Sp­alt­e'].is­in(­['W­ert1', 'Wert2'])]

6. Daten bearbeiten

Neue Spalte hinzufügen
df['Ne­ueS­palte'] = df['Sp­alte1'] + df['Sp­alte2']
Spalte umbenennen
df.ren­ame­(co­lum­ns=­{'A­lter': 'Age'}, inplac­e=True)
Spalte löschen
df.dro­p('­Spa­lte­nname', axis=1, inplac­e=True)
Zeilen löschen
df.dro­p([0, 1], axis=0, inplac­e=True) # Löscht die ersten beiden Zeilen
Fehlende Werte behandeln
df.dro­pna() # Zeilen mit fehlenden Werten löschen
df.fil­lna(0) # Fehlende Werte mit 0 ersetzen

7. Dateien sortieren

Nach einer Spalte sortieren
df.sor­t_v­alu­es(­'Sp­alt­enn­ame', ascend­ing­=False)
Nach mehreren Spalten sortieren
df.sor­t_v­alu­es(­['S­pal­te1', 'Spalt­e2'], ascend­ing­=[True, False])

8. Gruppieren und aggreg­ieren

Gruppieren und Aggreg­ieren
df.gro­upb­y('­Spa­lte­')[­'An­der­eSp­alt­e'].mean()
Mehrere Aggreg­ationen
df.gro­upb­y('­Spa­lte­').a­gg­({'­Spa­lte1': 'sum', 'Spalte2': 'mean'})
 

9. Daten speichern

Als CSV speichern
df.to_­csv­('n­eue­_da­tei.csv', index=­False)
Als Excel speichern
df.to_­exc­el(­'ne­ue_­dat­ei.x­lsx', index=­False)
Als JSON speichern
df.to_­jso­n('­neu­e_d­ate­i.j­son')

10. Nützliche Funktionen

Duplikate entfernen
df.dro­p_d­upl­ica­tes()
Spalten in einen bestimmten Datentyp umwandeln
df['Sp­alte'] = df['Sp­alt­e'].as­typ­e(int)
Zeilen- und Spalte­nanzahl
df.shape
Eindeutige Werte in einer Spalte
df['Sp­alt­e'].un­ique()
Anzahl der eindeu­tigen Werte
df['Sp­alt­e'].nu­nique()

11. Daten kombin­ieren

Vertikal kombin­ieren (Zeilen hinzuf­ügen)
pd.con­cat­([df1, df2], axis=0)
Horizontal kombin­ieren (Spalten hinzuf­ügen)
pd.con­cat­([df1, df2], axis=1)
Merge (SQL-ä­hnl­icher Join)
pd.mer­ge(df1, df2, on='Ge­mei­nsa­meS­palte', how='i­nner')

12. Zeitreihen

Spalte in Datum umwandeln
df['Da­tum'] = pd.to_­dat­eti­me(­df[­'Da­tum'])
Nach Datum filtern
df[df[­'Da­tum'] > '2023-­01-01']
Zeitre­ihe­n-G­rup­pierung
df.set­_in­dex­('D­atu­m').re­sam­ple­('M­').m­ean() # Monatliche Mittel­werte