df = sqlContext.createDataFrame(data)
|
Créer un DataFrame à partir d'une collection Python (liste) |
df = sqlContext.createDataFrame(data, ['name', 'age'])
|
Créer un DataFrame à partir d'une collection Python (liste) |
df = sqlContext.read.text('files.txt')
|
Crér un DataFrame à partir d'un fichier |
|
Créer un DataFrame à partie d'une colonne |
|
Sélectionner toutes les colonnes |
df.select('name', 'age')
|
Sélectionne 1 ou plusieurs colonnes |
df.select(df.name, (df.age + 10).alias('age'))
|
Sélectionner 2 colonnes, changer la valeur d'une colonne et renommer la colonne |
|
Suppression d'une colonne. Retourne un nouveau DataFrame |
|
Fontion anonyme. 1 expression |
slen = udf(lambda s: len(s), IntergerType())
|
Fonction lambda ou nommée et type du retour |
inledsDF.filter(isComment
|
Retourne un DataFrame dont les lignes respectent la/les condition(s) |
|
Retourne un DataFrame dont les lignes respectent la/les condition(s) |
|
Retourne un DataFrame avec les lignes uniques |
|
Retourne un DataFrame dans l'ordre croissant ou décroissant |
df.sort("age", ascending = False)
|
Retourne un DataFrame dans l'ordre croissant ou décroissant |
df.select(explode(df4.intlist).alias('anInt')
|
Chaque élément est dans une nouvelle ligne |
df.groupBy(df.name).agg({'*': 'count'}).collect()
|
df.groupBy(df.name).count
|
df.groupBy().avg().collect()
|
df.groupBy('name').avg('age', 'grade').collect()
|