mail unicampaniaunicampania webcerca

    Antonio BALZANELLA

    Insegnamento di DATA MINING AND BIG DATA

    Corso di laurea in DATA ANALYTICS

    SSD: SECS-S/01

    CFU: 12,00

    ORE PER UNITÀ DIDATTICA: 96,00

    Periodo di Erogazione: Annualità Singola

    Italiano

    Lingua insegnamento

    English

    Contenuti

    L’insegnamento annuale fornisce competenze approfondite in tecniche di analisi e trattamento dei dati, con particolare enfasi su data mining e big data analytics. Il programma integra fondamenti teorici con applicazioni pratiche e utilizzo di software specialistico (R, Python). Sono trattati: introduzione al data mining e Knowledge Discovery in Databases (KDD), anomaly detection, e strategie di imputazione dei dati mancanti, analisi esplorativa dei dati, metodi fattoriali multivariati (PCA, analisi delle corrispondenze), classificazione (alberi decisionali, k-NN, Naïve Bayes, ensemble methods), associazione (market basket analysis), clustering (k-means, clustering gerarchico, metodi basati su densità).

    Testi di riferimento

    • Introduction to Data Mining
    By: Pang-Ning Tan; Michael Steinbach;
    Anuj Karpatne; Vipin Kumar
    Publisher: Pearson
    Print ISBN: 9780133128901, 0133128903
    eText ISBN: 9780134080284, 0134080289
    Edition: 2nd
    https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4

    • T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, 2nd ed., Springer 2009.

    • Teaching materials, slides, and scripts provided on the e-learning platform.

    Obiettivi formativi

    Conoscenza e capacità di comprensione (knowledge and understanding).
    Il corso mira a far conoscere e saper comprendere gli aspetti metodologici del Data Mining e dell’Analisi dei Dati

    Conoscenza e capacità di comprensione applicate (applied knowledge and understanding).
    Il corso ha come obiettivo la comprensione delle principali tecniche Data Mining e degli aspetti applicativi da sviluppare anche attraverso esercitazioni, attività di laboratorio e l’utilizzo di software specialistico.

    Autonomia di giudizio (making judgements).
    Il corso intende far acquisire allo studente capacità di:
    - formulare una propria valutazione e giudizio sulla base delle informazioni apprese nel corso e dai confronti in aula con il docente e con gli altri studenti;
    - individuare e raccogliere informazioni aggiuntive per la conoscenza della materia attraverso anche consultazione di altri testi e materiale didattico aggiuntivo;
    - di acquisire la capacità del saper fare, del saper prendere iniziative e decisioni tenendo conto dei vari aspetti di interesse della materia specialmente nei suoi aspetti applicativi di analisi e estrazione di conoscenza dai dati, nella risoluzione di problemi pratici a partire dai dati e dalle informazioni estratte da banche dati e nell’utilizzo delle metodologie e delle tecniche di Data Mining con il software specialistico.

    Abilità comunicative (communication skills).

    Il corso è rivolto a far acquisire allo studente capacità di comunicazione degli argomenti appresi e dei risultati delle esercitazioni pratiche.

    Capacità di apprendere (learning skills).

    Il corso mira a far acquisire allo studente:
    - capacità di apprendimento che sono necessarie ai fini di un continuo aggiornamento e approfondimento delle tecniche di Data Mining per l’analisi dei dati;
    - capacità di attingere a diverse fonti bibliografiche in inglese, al fine di acquisire nuove competenze nella materia.

    Prerequisiti

    Conoscenze di analisi matematica e algebra lineare, di statistica descrittiva e inferenziale.

    Metodi didattici

    L’insegnamento annuale prevede 96 ore totali (12 CFU), così articolate:
    Due moduli didattici affidati a due docenti:
    - Primo modulo (4 CFU)
    Lezioni frontali (24 ore) con utilizzo di slide e materiale didattico fornito dal docente. - Esercitazioni in aula (8 ore) per l’apprendimento dei concetti attraverso problemi e case study. -

    - Secondo modulo (8 CFU)
    Lezioni frontali (48 ore) con utilizzo di slide e materiale didattico fornito dal docente. - Esercitazioni in aula (8 ore) per l’apprendimento dei concetti attraverso problemi e case study. -
    Sessioni di laboratorio (8 ore) dedicate all’implementazione pratica in R e Python e all’analisi di dataset reali. La frequenza è caldamente consigliata; le presenze sono registrate tramite firma o procedure informatiche di Ateneo.

    Lezioni frontali con l’utilizzo di slides e materiale didattico fornito dal docente;
    Esercitazioni;
    È richiesto lo studio personale con l’approfondimento della materia sui testi consigliati.

    Modalità di verifica dell'apprendimento

    La verifica prevede
    un primo colloquio sul primo modulo e un secondo colloquio sul secondo modulo.
    I due colloqui possono essere tenuti nella stessa sessione d'esame o i due diverse sessioni di esami.
    Ogni colloquio da come esito una valutazione (in 30esimi). Le due valutazioni vengono poi mediate per la votazione finale.

    Entrambe le verifiche sono composte da
    due componenti integrate:
    1. Tesina scritta (deliverable da sviluppare durante il corso): Rapporto tecnico sugli aspetti metodologici delle tecniche di data mining apprese, con presentazione commentata dei risultati delle elaborazioni di dati estratti da un dataset pubblico. La tesina deve illustrare le scelte metodologiche, l’implementazione degli algoritmi e l’interpretazione critica dei risultati. Requisiti formali: lunghezza indicativa 10-20 pagine, formato A4, font 11pt, spazi 1.5; o slides.
    2. Prova orale (30 minuti): Discussione dei contenuti teorici e dei risultati della tesina; verifica della padronanza concettuale delle tecniche affrontate e della capacità di argomentazione critica.
    Struttura della valutazione: Il voto finale (in trentesimi) è calcolato come media ponderata: 40% della tesina + 60% della prova orale.
    Parametri di valutazione: La valutazione considera: (1) correttezza metodologica nell’applicazione delle tecniche, (2) qualità dell’analisi critica, (3) proprietà di linguaggio specialistico, (4) capacità di sintesi e approfondimento, (5) completezza nella trattazione dei risultati.
    Voto Descrittore Criteri di Valutazione (Rubrica)
    30 - 30L Eccellente padronanza di tutte le tecniche; tesina approfondita e ben strutturata; analisi critica impeccabile; linguaggio tecnico perfetto; risultati originali e ben interpretati.

    26 - 29 Ottima conoscenza delle tecniche; tesina ben realizzata e metodologicamente corretta; buona capacità critica; buon linguaggio specialistico; interpretazione consapevole dei risultati.

    22 - 25 Discreta conoscenza delle principali tecniche; tesina adeguata con corretta applicazione metodologica; capacità critica sufficiente; linguaggio tecnico appropriato; risultati correttamente interpretati.
    18 - 21 Requisiti minimi: Conoscenza basilare delle tecniche principali (PCA, k-means, classificazione, associazione); tesina funzionale che dimostra applicazione delle metodologie; capacità minima di interpretazione critica.

    Altre informazioni

    Il materiale didattico (slide, esercizi, dataset ed eventuali risorse integrative) sarà reso disponibile sul canale Teams del corso.
    La frequenza, pur non obbligatoria, è fortemente consigliata, in quanto le lezioni includono esempi applicativi, discussioni di casi reali ed esercitazioni guidate che facilitano la comprensione dei concetti teorici.
    Durante il corso potranno essere assegnati esercizi facoltativi per l’autovalutazione.
    Gli studenti sono invitati a partecipare attivamente alle lezioni e alle esercitazioni.
    Per chiarimenti e approfondimenti, il docente è disponibile durante l’orario di ricevimento o su appuntamento.

    Programma esteso

    Modulo 1
    1. Introduzione al DM
    Concetti di base e relazione con il KDD
    Analisi esplorativa dei dati
    Rilevamento delle anomalie
    rumore e anomalie
    Valutazione delle anomalie
    Rilevamento delle anomalie basato su un modello
    Rilevamento delle anomalie
    (1,5 CFU)
    2. Metodi fattoriali multivariati
    Analisi delle componenti principali (0,5 CFU)
    Analisi delle corrispondenze
    Analisi delle corrispondenze multiple (1 CFU)

    3. Analisi di associazione
    Esplorazione delle regole di associazione
    Generazione di regole
    Misure di supporto e di confidenza
    Indipendenza statistica
    (1 CFU)


    Modulo 2
    1. Classificazione:
    Concetti di base (1 CFU)
    Classificatore basato su regole
    Classificatori del vicino più prossimo
    Classificatore bayesiano naive
    Metodi di insieme
    (2 crediti)
    2. Estensione all'A.A. con attributi continui e categoriali

    3. Regole di associazione a più livelli
    4. Scoperta di modelli sequenziali
    Esplorazione di sottografi

    3. Analisi dei cluster:
    Partizionamento Raggruppamento: K-means
    Raggruppamento gerarchico
    Basato su prototipi
    –Fuzzy c-means
    –Raggruppamento tramite modello misto
    –Mappe auto-organizzate
    Basato sulla densità
    –Raggruppamento basato su una griglia
    –Raggruppamento di sottospazi
    Basato su un grafico

    Validazione dei cluster
    Indici esterni e interni

    4. Tecniche
    •Basate sulla prossimità
    •Basate sulla densità
    •Corrispondenza di modelli
    •Approcci basati sul raggruppamento

    5. Esempi di codice R

    English

    Teaching language

    English

    Contents

    The annual course provides in-depth competencies in data analysis and processing techniques, with emphasis on data mining and big data analytics. The program integrates theoretical foundations with practical applications using specialized software (R, Python). Topics include introduction to data mining and KDD, ), anomaly detection, and missing data imputation strategies, exploratory data analysis, multivariate factorial methods (PCA, correspondence analysis), classification (decision trees, k-NN, Naïve Bayes, ensemble methods), association rules (market basket analysis), clustering (k-means, hierarchical clustering, density-based methods.

    Textbook and course materials

    • Introduction to Data Mining
    By: Pang-Ning Tan; Michael Steinbach;
    Anuj Karpatne; Vipin Kumar
    Publisher: Pearson
    Print ISBN: 9780133128901, 0133128903
    eText ISBN: 9780134080284, 0134080289
    Edition: 2nd
    https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4

    • T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, 2nd ed., Springer 2009.

    • Teaching materials, slides, and scripts provided on the e-learning platform.

    Course objectives

    Knowledge and understanding.
    The course aims at introducing and understanding the main methodological concepts related to Data Mining
    Applied knowledge and understanding.
    The course aims at the knowledge and understanding of the applicative aspects of Data Mining techniques also through exercises, laboratory activities and using specialist software.

    Making judgements
    The course aims at giving to the student ability at:
    - formulating an own evaluation and judgment based on learned notions and from a comparison, in classroom, with the teacher and with the other students;
    - identifying and collecting additional information for the subject knowledge through additional books and teaching materials;
    - doing and taking decisions, considering various aspects of the matter, especially applicative ones;
    - performing knowledge extraction from databases by using methodologies and techniques of Data Mining also using DM software (R and Python).

    Communication skills.
    The course aims to provide the student with communication skills on learnt data analysis methods and on results of practical exercises.

    Learning skills.
    The course aims to provide the student with:
    - learning skills necessary for understanding and using of Data Mining techniques for data processing;
    - ability to draw on different bibliographical sources in order to acquire new skills in this field.

    Prerequisites

    Knowledge of analysis, linear algebra, descriptive and inferential statistics.

    Teaching methods

    The annual course consists of a total of 96 hours (12 credits), structured as follows:
    Two teaching modules assigned to two lecturers:
    - First module (4 ECTS)
    Lectures (24 hours) using slides and teaching materials provided by the lecturer.

    - Classroom exercises (8 hours) for learning concepts through problems and case studies. -

    - Second module (8 ECTS)

    Lectures (48 hours) with the use of slides and teaching materials provided by the lecturer. - Classroom exercises (8 hours) for learning concepts through problems and case studies. -

    Laboratory sessions (8 hours) dedicated to practical implementation in R and Python and the analysis of real datasets. Attendance is strongly recommended; attendance is recorded by signature or university IT procedures.

    Lectures using slides and teaching materials provided by the lecturer;
    Exercises;
    Personal study is required with in-depth study of the subject using the recommended lectures.

    Assessment methods

    The assessment consists of an initial interview on the first module and a second interview on the second module.
    The two interviews may be held in the same examination session or in two different examination sessions.
    Each interview results in an evaluation (score in 30). The two evaluations are then averaged to give the final score.
    Both examinations consist of two integrated components:
    1. A technical report on the methodological aspects of the data mining techniques learned, with a commented presentation of the results of the processing of data extracted from a public dataset. The report must illustrate the methodological choices, the implementation of the algorithms and the critical interpretation of the results.
    Formal requirements: approximate length 10-20 pages, A4 format, 11pt font, 1.5 spacing; or slides
    2. Oral examination (30 minutes): Discussion of the theoretical content and results of the thesis; assessment of conceptual mastery of the techniques covered and critical reasoning skills.
    Assessment structure: The final mark (out of 30) is calculated as a weighted average: 40% of the dissertation + 60% of the oral exam.

    Assessment criteria: The assessment considers: (1) methodological correctness in the application of techniques, (2) quality of critical analysis, (3) appropriateness of specialist language, (4) ability to summarise and explore in depth, (5) completeness in the discussion of results.
    Score - Assessment Criteria (Rubric)
    30 - 30L Excellent mastery of all techniques; in-depth and well-structured dissertation; impeccable critical analysis; perfect technical language; original and well-interpreted results.
    26 - 29 Excellent knowledge of techniques; well-written and methodologically correct dissertation; good critical skills; good specialised language; informed interpretation of results.
    22 - 25 Fair knowledge of the main techniques; adequate dissertation with correct methodological application; sufficient critical skills; appropriate technical language; correctly interpreted results.
    18 - 21 Minimum requirements: Basic knowledge of the main techniques (PCA, k-means, classification, association); functional dissertation demonstrating application of methodologies; minimum critical interpretation skills.

    Other information

    Teaching materials (slides, exercises, datasets, and additional resources) will be made available through the course channel on MS Teams.
    Attendance, although not mandatory, is strongly recommended, as lectures include applied examples, real-world case discussions, and guided exercises that support the understanding of theoretical concepts.
    Optional exercises may be assigned during the course for self-assessment purposes.
    Students are encouraged to actively participate in lectures and practical sessions.
    For further clarification or in-depth discussion, the instructor is available during office hours or by appointment.

    Detailed syllabus

    Module 1
    1. Introduction to DM
    Basic concepts and relationship with KDD
    Exploratory data analysis
    Anomaly detection
    Noise and anomalies
    Anomaly scoring
    Model-based anomaly detection
    Anomaly detection
    (1.5 ECTS)
    2. Multivariate factorial methods
    Principal component analysis (0.5 ECTS)

    Correspondence analysis
    Multiple correspondence analysis (1 ECTS)

    3. Association analysis
    Exploration of association rules
    Rule generation
    Support and confidence measures
    Statistical independence
    (1 ECTS)

    Module 2
    1. Classification:
    Basic concepts (1 CFU)
    Rule-based classifier
    Nearest neighbour classifiers
    Naive Bayesian classifier
    Ensemble methods
    (2 credits)
    2. Extension to A.A. for continuous and categorical attributes
    3. Multi-level association rules
    4. Sequential pattern discovery
    Subgraph exploration

    3. Cluster analysis:
    Partitioning Clustering: K-means
    Hierarchical clustering
    Prototype-based
    –Fuzzy c-means
    –Mixed model clustering
    –Self-organising maps
    Density-based
    –Grid-based clustering
    –Subspace clustering
    Graph-based

    Cluster validation
    External and internal indices

    4. Techniques
    •Proximity-based
    •Density-based
    •Pattern matching
    •Clustering-Based Approaches

    5. R code examples

    facebook logoinstagram buttonyoutube logotype