mail unicampaniaunicampania webcerca

    Rosanna VERDE

    Insegnamento di DATA MINING

    Corso di laurea magistrale in SCIENZE E TECNICHE DELLE AMMINISTRAZIONI PUBBLICHE

    SSD: SECS-S/01

    CFU: 8,00

    ORE PER UNITÀ DIDATTICA: 48,00

    Periodo di Erogazione: Secondo Semestre

    Italiano

    Lingua di insegnamento

    ITALIANO

    Contenuti

    Introduzione: Il Data Mining versus Knowledge Discovery in Data Bases
    Analisi esplorativa dei dati
    Modelli statistici per il data mining:
    Regressione e Classificazione
    Metodi per il data mining:
    Regole di Associazione
    Misure di dissimilarità e distanze
    Metodi di Clustering divisivo (k-means) e gerarchico (criterio di Ward)
    Analisi in Componenti Principali
    Alberi di decisone (segmentazione binaria – alberi di classificazione e di regressione)

    Software per il Data Mining: R

    Testi di riferimento

    In alternativa:
    S. ZANI – A. CERIOLI, Analisi dei dati e Data Mining per le decisioni aziendali, Giuffrè Editore, Milano, 2007
    A. Azzalini - B. Scarpa, Analisi dei dati e data mining, Springer-Verlag Italia, 2004 ISBN 88-470-0272-9

    Obiettivi formativi

    Conoscenza e capacità di comprensione (knowledge and understanding).

    Il corso mira a far conoscere e saper comprendere gli aspetti metodologici del Data Mining e dell’Analisi dei Dati (concetti introduttivi)

    Conoscenza e capacità di comprensione applicate (applied knowledge and understanding).

    Il corso mira alla conoscenza e alla comprensione gli aspetti applicativi delle principali tecniche Data Mining attraverso esercitazioni, attività di laboratorio e acquisizione di conoscenze del software specialistico.

    Autonomia di giudizio (making judgements).

    Il corso mira a far acquisire allo studente capacità di:
    - formulare una propria valutazione e giudizio sulla base delle informazioni apprese nel corso di Statistica e dai confronti in aula con il docente e con gli altri studenti;
    - individuare e raccogliere informazioni aggiuntive per la conoscenza della materia attraverso anche consultazione di altri testi e materiale didattico aggiuntivo;
    di avere la capacità del saper fare, del saper prendere iniziative e decisioni tenendo conto dei vari aspetti di interesse della materia specialmente nei suoi aspetti applicativi di analisi e estrazione di conoscenza dai dati, nella risoluzione di problemi pratici a partire dai dati e le informazioni estratte da banche dati e nell’utilizzo delle metodologie e delle tecniche di Data Mining con il software specialistico.




    Abilità comunicative (communication skills).

    Il corso mira a far acquisire allo studente capacità di comunicazione degli argomenti appresi e dei risultati delle esercitazioni pratiche.

    Capacità di apprendere (learning skills).

    Il corso mira a far acquisire allo studente:
    - capacità di apprendimento che sono necessarie ai fini di un continuo aggiornamento nell'ambito delle tecniche di Data Mining per l’analisi dei dati;
    - capacità di attingere a diverse fonti bibliografiche, sia in italiano che in inglese, al fine di acquisire nuove competenze nella materia

    Prerequisiti

    Conoscenze di base di statistica descrittiva e inferenziale.

    Metodologie didattiche

    Lezioni frontali con l’utilizzo di slides e materiale didattico fornito dal docente
    Esercitazioni
    È richiesto lo studio personale con l’approfondimento della materia sui testi consigliati

    Metodi di valutazione

    La verifica prevede due componenti integrate:

    1. Tesina scritta (deliverable da sviluppare durante il corso): Rapporto tecnico sugli aspetti metodologici delle tecniche di data mining apprese, con presentazione commentata dei risultati delle elaborazioni di dati estratti da un dataset pubblico. La tesina deve illustrare le scelte metodologiche, l’implementazione degli algoritmi e l’interpretazione critica dei risultati. Requisiti formali: lunghezza indicativa 8-15 pagine, formato A4, font 11pt, spazi 1.5; consegna entro data stabilita.

    2. Prova orale (20 minuti): Discussione dei contenuti teorici e dei risultati della tesina; verifica della padronanza concettuale delle tecniche affrontate e della capacità di argomentazione critica.
    Struttura della valutazione: Il voto finale (in trentesimi) è calcolato come media ponderata: 30% della tesina + 70% della prova orale.
    Parametri di valutazione: La valutazione considera:
    (1) correttezza metodologica nell’applicazione delle tecniche,
    (2) qualità dell’analisi critica,
    (3) proprietà di linguaggio specialistico,
    (4) capacità di sintesi e approfondimento, (5) completezza nella trattazione dei risultati.

    Voto Descrittore Criteri di Valutazione (Rubrica)

    30 - 30L Eccellente padronanza di tutte le tecniche; tesina approfondita e ben strutturata; analisi critica impeccabile; linguaggio tecnico perfetto; risultati originali e ben interpretati.

    26 - 29 Ottima conoscenza delle tecniche; tesina ben realizzata e metodologicamente corretta; buona capacità critica; buon linguaggio specialistico; interpretazione consapevole dei risultati.

    22 - 25 Discreta conoscenza delle principali tecniche; tesina adeguata con corretta applicazione metodologica; capacità critica sufficiente; linguaggio tecnico appropriato; risultati correttamente interpretati.

    18 - 21 Requisiti minimi: Conoscenza basilare delle tecniche principali (PCA, k-means, classificazione, associazione); tesina funzionale che dimostra applicazione delle metodologie; capacità minima di interpretazione critica.

    Altre informazioni

    --

    Programma del corso

    CONTENUTI
    Introduzione: Il Data Mining versus Knowledge Discovery in Data Bases (1 CFU)
    Analisi esplorativa dei dati (1 CFU)
    Modelli statistici per il data mining:
    Regressione e Classificazione (1,5 CFU)
    Metodi per il data mining:
    Regole di Associazione (0,5 CFU)
    Misure di dissimilarità e distanze (0,5 CFU)
    Metodi di Clustering divisivo (k-means) e gerarchico (criterio di Ward) (1 CFU)
    Analisi in Componenti Principali (0,5 CFU)
    Alberi di decisone (segmentazione binaria – alberi di classificazione e di regressione) (1 CFU)

    Software per il Data Mining: R
    (1 CFU)

    English

    Teaching language

    Italian

    Contents

    Introduction: Data Mining versus Knowledge Discovery in Data Bases
    Exploratory data analysis
    Statistical models for data mining:
    Regression and Classification
    Data mining methods:
    Association Rules
    Measures of dissimilarity and distances
    Clustering methods: divisive (k-means) and hierarchical (Ward criterion)
    Principal Component Analysis
    Decision trees (binary segmentation - classification and regression trees)

    Data Mining Software: R

    Textbook and course materials

    as alternative:
    S. ZANI – A. CERIOLI, Analisi dei dati e Data Mining per le decisioni aziendali, Giuffrè Editore, Milano, 2007
    A. Azzalini - B. Scarpa, Analisi dei dati e data mining, Springer-Verlag Italia, 2004 ISBN 88-470-0272-9

    Course objectives

    Knowledge and understanding.
    The course aims to introduce and understand of methodological aspects of Data Mining (preliminary concepts)


    Applied knowledge and understanding.
    The course aims at the knowledge and understanding of the application aspects of the main techniques of Data Mining through exercises, laboratory activities and the using of specialist software.



    Making judgements
    The course aims to give ability to the student to:
    - formulate an own evaluation and judgment based on learned notions and from a comparison, in classroom, with the teacher and with the other students;
    - identify and collect additional information for the subject knowledge through additional books and teaching materials;
    - improve the ability to make and take decisions, considering the various aspects of the issue, especially those of application;
    - perform knowledge extraction from databases using data mining methodologies and techniques with the specialized software R.






    Communication skills.
    The course aims to provide the student with communication skills on learnt data analysis methods and on results of practical exercises.


    Learning skills.
    The course aims to provide the student with:
    - learning skills necessary for understanding and using of Data Mining techniques for data processing;
    - ability to draw on different bibliographical sources in order to acquire new skills in this field.

    Prerequisites

    Basic knowledge of descriptive statistics and statistics inference.

    Teaching methods

    Lectures with the use of slides and teaching materials provided by the lecturer
    Exercises
    Personal study is required with in-depth study of the subject matter in the recommended texts

    Evaluation methods

    The assessment consists of two integrated components:

    1. Written report (to be developed during the course): Technical report on the methodological aspects of the data mining techniques learned, with a commented presentation of the results of the processing of data extracted from a public dataset. The report must illustrate the methodological choices, the implementation of the algorithms and the critical interpretation of the results. Formal requirements: approximate length 8-15 pages, A4 format, 11pt font, 1.5 spacing; submission by the set date.

    2. Oral exam (20 minutes): Discussion of the theoretical content and results of the dissertation; assessment of conceptual mastery of the techniques covered and critical reasoning skills.
    Assessment structure: The final mark (out of 30) is calculated as a weighted average: 30% of the dissertation + 70% of the oral exam.
    Assessment parameters: The assessment considers:
    (1) methodological correctness in the application of techniques,
    (2) quality of critical analysis,
    (3) appropriateness of specialised language,
    (4) ability to synthesise and explore in depth, (5) completeness in the discussion of results.

    Grade Descriptor Assessment Criteria (Rubric)

    30 - 30L Excellent mastery of all techniques; in-depth and well-structured dissertation; impeccable critical analysis; perfect technical language; original and well-interpreted results.

    26 - 29 Excellent knowledge of techniques; well-written and methodologically correct dissertation; good critical ability; good specialised language; informed interpretation of results.

    22 - 25 Fair knowledge of the main techniques; adequate dissertation with correct methodological application; sufficient critical skills; appropriate technical language; correctly interpreted results.

    18 - 21 Minimum requirements: Basic knowledge of the main techniques (PCA, k-means, classification, association); functional dissertation demonstrating application of methodologies; minimum critical interpretation skills.

    Other information

    --

    Course Syllabus

    Introduction: Data Mining versus Knowledge Discovery in Data Bases (1 ECTS)
    Exploratory data analysis (1 ECTS)
    Statistical models for data mining:
    Regression and Classification (1,5 ECTS)
    Data mining methods:
    Association Rules (0,5 ECTS)
    Measures of dissimilarity and distances (0,5 ECTS)
    Clustering methods: divisive (k-means) and hierarchical (Ward criterion) (1 ECTS)
    Principal Component Analysis (0,5 ECTS)
    Decision trees (binary segmentation - classification and regression trees)
    (1 ECTS)
    Data Mining Software: R (1 ECTS)

    facebook logoinstagram buttonyoutube logotype