mail unicampaniaunicampania webcerca

    Rosanna VERDE

    Insegnamento di STATISTICAL AND MACHINE LEARNING METHODS FOR INFORMATION TECHNOLOGIES

    Corso di laurea magistrale in DATA SCIENCE

    SSD: SECS-S/01

    CFU: 6,00

    ORE PER UNITÀ DIDATTICA: 48,00

    Periodo di Erogazione: Secondo Semestre

    Italiano

    Lingua di insegnamento

    Inglese

    Contenuti

    I principali temi del corso consistono in metodi statistici e di apprendimento automatico per la previsione dell'evoluzione di fenomeni sulla base di osservazioni, anche di grandi dimensioni prodotta dalle più moderne tecnologie
    Il corso è incentrato su l'applicazioni di modelli statistici e le tecniche di machine learning, nonché la loro interazione, allo studio di ambiti ambientali, socio-economici, bio-medicali.
    Gli argomenti trattati durante il corso sono:
    - METODI NON SUPERVISIONATI - Metodi di clustering
    Per scoprire modelli nascosti in dati non etichettati.
    Per individuare le caratteristiche più rilevanti in grado di scoprire e spiegare la struttura di sottogruppi dei dati.
    - APPRENDIMENTO SUPERVISIONATO
    Modelli di classificazione per riconoscere modelli in dati ad alta dimensionalità
    - METODI AVANZATI PER APPLICAZIONI
    Modelli predittivi per dati simbolici e complessi.

    Testi di riferimento

    Hastie, T.; Tibshirani, R.; Friedman, J. The Elements of Statistical Learning, 2nd ed.; Springer: Berlin, Germany,
    2008; ISBN 978-0-387-84857-0
    Handbook on Clustering Analysis. Eds: Christian Hennig, Marina Meila, Fionn Murtagh, Roberto Rocci. CRC Press Taylor & Francis Group A CHAPMAN & HALL BOOK. 2016; ISBN 978-1-4665-5189-3 (eBook - PDF)

    Obiettivi formativi

    Gli studenti acquisiranno competenze di tipo metodologico e applicativo e saranno in grado di applicare le conoscenze acquisite in studi su dati ambientali, ad esempio nel monitoraggio dell’inquinamento dell’aria o delle acque, nel telerilevamento per l’individuazione delle diverse tipologie di aree (urbane, agricole o industriali), nella gestione di dati di flusso, ad esempio, consumi energetici per la previsione della domanda. Inoltre, potranno anche applicare le proprie conoscenze su dati biomedici, ad esempio le tecniche di analisi di dati funzionali sull’analisi di ECG per una classificazione dei pazienti se affetti da patologia cardiaca o sani. L’obiettivo è quindi di fornire una preparazione coerente con gli sbocchi occupazionali di un data scientist in enti o imprese che operano in ambito ambientale o anche come analisti di dati biomedici in centri di cura (ospedali, laboratori bio-medicali) o in centri studio e di ricerca.

    Prerequisiti

    Conoscenze di statistica di base e inferenziale e di tecniche di Data Mining. Conoscenze di base di software Python e R.

    Metodologie didattiche

    Il corso è organizzato in lezioni frontali per la presentazione delle tecniche di analisi statistica dei dati e di machine learning. Particolare attenzione è rivolta agli aspetti applicativi specialmente in ambito ambientale.
    L'attività di laboratorio costituisce poi un'occasione fondamentale per approfondire la conoscenza e l'utilizzo delle procedure software (Python e R) e per implementare alcuni algoritmi per analizzare dati reali o di benchmark.

    Metodi di valutazione

    La verifica dell'apprendimento avviene attraverso la prova finale che consiste in un colloquio orale su aspetti teorici delle tecniche trattate anche sulla base di una tesina su applicazioni delle tecniche studiate durante il corso su dati ambientali, telerilevamento o biomedici; la valutazione finale è espressa in trentesimi.

    Altre informazioni

    Seminari sull’applicazione all’IA in ambito industrial completeranno il Corso con la partecipazione di esperti.

    Programma del corso

    Il corso intende fornire conoscenze di metodi statistici e di apprendimento automatico per la previsione dell'evoluzione di fenomeni sulla base di osservazioni. L'enorme mole di dati prodotta dalle più moderne tecnologie ha permesso di estendere i modelli statistici e le tecniche di machine learning, nonché la loro interazione, allo studio di ambiti ambientali, socio-economici, bio-medicali.
    Il corso è incentrato su metodi statistici e metodi di machine learning per applicazioni di analisi dei dati di grandi dimensioni come quelli di telerilevamento e provenienti da sensori.
    Gli argomenti che verranno trattati durante il corso sono:
    - Algoritmi avanzati di partizionamento per l'analisi di dati complessi e strutturati:
    Clustering di dati strutturati e multi-dimensionali;
    Clustering di dati funzionali;
    Clustering semi-supervisionato;
    Clustering di dati simbolici;
    Clustering consensuale;
    Clustering fuzzy;
    Metodi di co-clustering;
    Algoritmo di fattorizzazione di matrici non negative;
    Clustering collaborativo;
    Metodi di regressione cluster-wise;
    Clustering spettrale;
    Clustering di flussi di dati.

    - Apprendimento supervisionato
    Random Forest & Gradient Boosting → per dati strutturati (tabellari)

    Support Vector Machines (SVM) → per la classificazione e la regressione in spazi complessi

    English

    Teaching language

    English

    Contents

    The main topics of the course consist of statistical methods and machine learning for exploring hidden data structures and predicting the evolution of phenomena on the basis of observations, even large ones produced by the most modern technologies
    The course focuses on the application of statistical models and machine learning techniques, as well as their interaction, to the study of environmental, socio-economic, bio-medical fields.

    The topics covered during the course are:
    - UNSUPERVISED METHODS - Based-clustering methods
    For discovering hidden patterns in unlabelled data.
    For detecting the most relevant features able to discover and explain the structure of the data.
    - SUPERVISED LEARNING
    Classification models to recognize patterns in high dimensional data
    - ADVANCED METHODS FOR APPLICATIONS
    Predictive models for Symbolic and Complex Data

    Textbook and course materials

    Hastie, T.; Tibshirani, R.; Friedman, J. The Elements of Statistical Learning, 2nd ed.; Springer: Berlin, Germany,
    2008; ISBN 978-0-387-84857-0
    Handbook on Clustering Analysis. Eds: Christian Hennig, Marina Meila, Fionn Murtagh, Roberto Rocci. CRC Press Taylor & Francis Group A CHAPMAN & HALL BOOK. 2016; ISBN 978-1-4665-5189-3 (eBook - PDF)

    Course objectives

    Students will acquire methodological and applicative skills and will be able to apply the knowledge acquired in studies on environmental data, for example in monitoring air or water pollution, in remote sensing for the identification of different types of areas ( urban, agricultural or industrial), in the management of flow data, for example, energy consumption for forecasting demand. In addition, they will also be able to apply their knowledge on biomedical data, for example functional data analysis techniques on ECG analysis for classifying patients with heart disease or healthy. The objective is therefore to provide a preparation consistent with the employment opportunities of a data scientist in organizations or companies operating in the environmental field or even as biomedical data analysts in treatment centers (hospitals, bio-medical laboratories) or in study centers. and research.

    Prerequisites

    Knowledge of basic and inferential statistics and Data Mining techniques. Basic knowledge of Python and R software.

    Teaching methods

    The course is organized in lectures for the presentation of statistical data analysis and machine learning techniques. Particular attention is paid to the application aspects, especially in the environmental field.
    The laboratory activity also constitutes a fundamental opportunity to deepen the knowledge and use of software procedures (Python and R) and to implement some algorithms for the analysis of real data or benchmarks.

    Evaluation methods

    Learning is assessed through a final examination consisting of an oral interview on theoretical aspects of the techniques covered, also based on a dissertation on applications of the techniques studied during the course on environmental, remote sensing or biomedical data; the final assessment is expressed in thirtieths.

    Other information

    Seminars on the application of AI in industry will complete the course, with the participation of experts.

    Course Syllabus

    The course aims to provide knowledge of statistical and machine learning methods for predicting the evolution of phenomena based on observations. The enormous amount of data produced by the latest technologies has made it possible to extend statistical models and machine learning techniques, as well as their interaction, to the study of environmental, socio-economic and biomedical fields.

    The course focuses on statistical methods and machine learning methods for large-scale data analysis applications such as remote sensing and sensor data.

    The topics covered during the course are:
    - Advanced partitioning algorithms for analysing complex and structured data:
    Structured and Multi-view data Clustering; Functional Data Clustering; Semi-Supervised Clustering;
    Symbolic Data Clustering;
    Consensus Clustering;
    Fuzzy Clustering;
    Co-clustering methods;
    Non-negative Matrix Factorization algorithm;
    Collaborative Clustering;
    Clusterwise Regression Methods;
    Spectral Clustering;
    Clustering of Data Streams.

    - Supervised Learning
    Random Forest & Gradient Boosting → for structured (tabular) data
    Support Vector Machines (SVM) → for classification and regression in complex spaces

    facebook logoinstagram buttonyoutube logotype