Eindeutige Werte und Duplikate
isin(): d für jeden Wert einer Serie überprüfen, ob er in einer Liste ist s.isin(['a','b']) penguins[penguins['species'].isin(['Adelie'])] |
unique() gibt die eindeutigen Werte aus import seaborn as sns penguins["species"].unique() |
duplicated() gibt eine boolean Serie zurück, ob die Zeile schon vorhanden war Mit drop_duplicates() können die Duplikate entfernt werden |
Apply
Anwenden einer Funktion spaltenweise oder zeilenweise df.apply(max) df.apply(max, axis=1) |
Kombination mit eigener Funktion df.apply(meine_funktion) df.apply(meine_funktion, axis=1) |
Rückgabe von mehreren Elementen def f(x): return pd.Series([x.min(), x.max()], index=['min', 'max']) df.apply(f, axis=1) |
|
|
All, Any
all() prüfen ob alle Elemente einer boolschen Serie True sind. titanic["who"].isin(["child","woman"]).all() |
any() prüft, ob es mindestens ein Element einer boolschen Serie gibt, welches den Wert True hat (titanic["age"] > 75).any() |
Map und ApplyMap
map ermöglicht das Anwenden einer Funktion auf jedes Element einer Serie f = lambda x: f'{x:.2f}' df['Wert1'].map(format) |
applymap wendet eine Funktion auf jedes Element eines DataFrames an df.applymap(lambda x: f'{x:.2f}') |
Stichprobe
sample() : Zufällige Stichprobe n gibt die Größe an
|
replace=True : eine Zeile mehrfach auswahlen train_rate = 0.8 train_n = round(train_rate * coffee.shape[0]) train = coffee.sample(n = train_n) test = coffee[~pd.Series(coffee.index).isin(pd.Series(train.index))] print(test.shape) |
|
|
Kategorien und Ersetzungen
value_counts() gibt die Anzahl der eindeutigen Werte aus |
cut() sortiert Werte in Intervalle pd.cut(penguins["body_mass_g"], bins=3) |
replace() : Werte ersetzen df.replace('alter Wert','neuer Wert') df.replace(['alt1','alt2'],'neu') df.replace({'alt1':'neu1','alt2':'neu2'}, inplace=True) |
|