Show Menu
Cheatography

Data Mining 2 Cheat Sheet (DRAFT) by

This is a draft cheat sheet. It is a work in progress and is not finished yet.

Sequential Patterns

Occorrenze : <{A,B}> <{A,C}> ...
- min_gap = 1 --> distanze > di uno: <2,3> NO
- max_gap = 2 --> distanze <= a 2: <2,5> NO
- max_span = 3 --> distanza <= a 3: <2,3,5> NO
GSP: ab --> a --> b
1 - Genero gli 1-itemset e valuto il supporto;
2 - Genero tutte le sequenze dagli itemset validi e valuto il supporto;
3 - Genero le 3-sequenze dal passo due, valuto se per ogni 3sequenza, togliendo uno alla volta un membro, ha supporto > sup_min, se si la tengo altrimenti la elimino. Successivamente valuto il supporto delle 3-sequenze rimaste;
4 - Continuo come al passo 3: genero, pruning, valuto supporto.

Serie temporali

KNN: distanza euclidea tra una serie e tutte quelle del training e prendo i k più bassi.
DTW: matrici enormi. Scelgo quella con vertice altro-destra minore e seleziono il cammino con minor costo. La matrice scelta determina la classe.
 

Classi­fic­azione

KNN: scelgo i k-vicini con minor distanza
  Dati continui: distanza euclinea;
  Dati categorici:
     1) matrici attributi/classi;
     2) d(alto|basso)=|(alti classe SI/tot alti)-(bassi classe SI/tot bassi)|+|stessa cosa per classe NO|;
     3) somma distanze al quadrato.
Decision Tree:
  a) Controllare se le regole possono essere semplificate (magari un solo attributo a sinistra) attraverso il PE = (Training_ERROR + 0.5)/N. La regola con PE minore è quella migliore;
  b) Costruire le matrici di confusione per i modelli e valutare statistiche sia sul training che sul test set:
     o\c   |YES  NO | Accuracy: (TP+TN)/tutti
     YES |  TP   FN  |  Precision: TP\(TP+FP)
      NO   |  FP   TN | Recall: TP\(TP+FN)
Bayesian Model: scelgo la classe dell'elemento con P maggiore
  Dati continui: media, varianza, funzione (per entrambe le classi);
  Dati categorici: Produttoria di P(X|YES)*P(YES)
   dove P(X|YES) = (n.con X)\(n.tot YES)
   alla fine: matrice di confusione e statistiche.
  Dati continui E categorici: come i casi precedenti e moltiplicazione tra le varie probabilità.