Operacje na HDFS-ie
Aby korzystać z Pig-a w trybie rozproszonym (wywołanie lub ) należy umieścić pliki wejściowe w HDFS-ie. Po dokonaniu przetworzenia można ponownie ściągnąć dane do lokalnego systemu plikówTypy danych (Java/Pig)
Podstawowe typy danych używane w Pig-u i ich interpretacja w Javie Schemat danych
Użytkownik wczytując dane może podać ich schemat. Dzieje się tak kiedy podaje się nazwy kolumn, bądź też nazwy kolumn z konkretnymi typami. |
Produkcja danych
Aby sekwencja operacji - czy w interaktywnej konsoli, czy w wykonywanym skrypcie - została wykonana konieczne jest umieszczenie operacji produkującej wynik. Operacje nie prowadzące do wyprodukowania wyniku są ignorowane. Wykorzystanie UDFow
Pig umożliwia korzystanie ze zdefiniowanych w Javie, Pythonie, bądź w innym języku zdefiniowanych przez użytkownika funkcji (User Defined Functions, UDFs). Aby skorzystać z tej możliwości należy zarejestrować paczkę JAR, bądź skrypt Pythonowy, etc. Pythonowe UDFy
|
Cheatography
https://cheatography.com
Apache Pig - 1. czesc Cheat Sheet (DRAFT) by pdendek
materiały do szkolenia KDM
This is a draft cheat sheet. It is a work in progress and is not finished yet.