Documentazione CE-FeSTE

Credito Emiliano - Feature Selection, Transformation and Elimination (CE - FeSTE) è una libreria che si propone di gestire vari aspetti riguardo la manipolazione delle feature dei dati utilizzati negli algoritmi di machine learning attraverso diversi moduli, aiutando l’utente ad ottenere un dataset finale che possa essere usato per raggiungere delle performance migliori. I moduli principali sono:

Analisi delle Feature: Rappresenta la classe madre dei moduli di selezione ed eliminazione. Comprende metodi per fare un’analisi di base delle feature, che comprende un conteggio dei valori e, se si tratta di una feature numerica, una lista di statistiche descrittive (media, deviazione standard, percentili e valori minimi e massimi) e la gestione (getting e setting) degli attributi della classe.

Selezione delle Feature: Comprende metodi per fare un filtraggio delle feature prima della fase di training basandosi su metriche strutturali delle feature stesse. I filtri utilizzati sono:

  • Controllo di feature costanti.

  • Controllo di feature con valori mancanti.

  • Controllo di feature con basso numero di valori unici.

  • Controllo di feature quasi costanti.

  • Controllo di feature correlate.

  • Controllo di feature collineari.

  • Controllo di feature con distribuzione diversa tra train e test.

  • Controllo di feature con potere esplicativo nei confronti del target basso.

Eliminazione delle Feature: Comprende metodi per fare un’eliminazione delle feature in-training, utilizzando una tecnica RFE (Recursive Feature Elimination) basata sui valori SHAP su un modello addestrato ricorsivamente.

Trasformazione delle Feature: Viene fatta una trasformazione delle feature in base alla classe di Transformer scelta. Le trasformazioni sui dati possono essere:

  • Conversione di colonne categoriche nel formato ‘category’.

  • Estrazione di un particolare sottoinsieme di colonne.

  • Ridenominazione di colonne.

  • Conversioni di colonne in valori binari.

  • Trasformazione logaritmica dei valori.

  • Gestione degli outlier basata sui quantili con tecniche di capping.

Moduli

cefeste.elimination

Classe utilizzata per implementare tecniche di eliminazione delle feature.

cefeste.selection

Classe utilizzata per implementare tecniche di selezione delle feature.

cefeste.transform

Modulo contenente classi utilizzate per implementare trasformazioni delle feature.

cefeste

Classe utilizzata per implementare tecniche di analisi delle feature.

Contenuti

Contents:

Indices and tables