mail unicampaniaunicampania webcerca

    Antonio IRPINO

    Insegnamento di ADVANCED DATA ANALYSIS AND VISUALIZATION

    Corso di laurea in DATA ANALYTICS

    SSD: SECS-S/01

    CFU: 9,00

    ORE PER UNITÀ DIDATTICA: 84,00

    Periodo di Erogazione: Primo Semestre

    Italiano

    Lingua di insegnamento

    INGLESE

    Contenuti

    Un buon grafico è uno strumento potente per analizzare i dati e comunicare risultati. Grazie a processi visivi, un buon grafico statistico può rapidamente fornire una comprensione dei dati.
    Questo corso servirà a introdurre lo studente alle forme più comuni di visualizzazione grafica e ai loro usi e abusi. Gli studenti impareranno sia come creare questi grafici che come comprenderli. Le lezioni copriranno anche alcuni principi di percezione e stima visiva. Iniziamo con dati univariati e bivariati, esaminando alcuni grafici di uso comune e, dopo aver discusso i loro vantaggi / svantaggi, passeremo a strumenti più sofisticati. Esploreremo quindi alcuni strumenti tridimensionali, struttura di gruppo / clustering e proiezioni di dati multi dimensionali. Se il tempo lo consente, il corso prenderà in considerazione alcuni modelli grafici più avanzati come mappe statistiche, reti e l'uso di icone.
    Il corso ha come obiettivo quello di fornire competenze metodologiche e pratiche per analizzare dati di diversa natura utilizzando strumenti visivi e per scoprire risultati e andamenti attraverso un’ispezione visiva dei dati.
    Lo studente apprenderà come scegliere i migliori strumenti in base alla natura dei dati, al diverso contesto applicativo e a come sviluppare uno storytelling supportato da dati.


    Testi di riferimento

    Testi consigliati (alcuni sono disponibili gratuitamente dal sito della biblioteca):
    Edward R. Tufte, “The Visual Display of Quantitative Information”
    Leland Wilkinson, The Grammar of Graphics, 2nd edition, Springer
    AA.VV., Handbook of Data Visualization, Springer

    Websites:
    https://ggplot2.tidyverse.org/
    https://matplotlib.org/
    https://seaborn.pydata.org/
    https://towardsdatascience.com/data-visualization/home

    Obiettivi formativi

    Il corso ha come obiettivo quello di formare uno studente che sarà capace di:
    Esplorare visivamente dati grezzi e verificare se alcuni modelli statistici rappresentano bene i dati.
    Avere capacità critica e eventualmente proporre modifiche a grafici statistici sui principi seguenti.
    Produrre infografiche statistiche che siano comprensibili, auto-esplicative e informative utilizzando dei software statistici
    Progettare grafici statistici efficaci utilizzando i principi della percezione visiva
    Modellizzare grafici statistici in base oi principi della grammatica dei grafici
    Progettare poster o infografiche utilizzando i principi del design grafico
    Generare visualizzazioni interattive seguendo i principi del design interattivo
    Sintetizzare la letteratura sulla visualizzazione dei dati per giustificare le raccomandazioni della pratica grafica

    Prerequisiti

    Statistica descrittiva e basi di programmazione

    Metodologie didattiche

    48 ore di lezioni frontali con utilizzo di slides e 36 ore di attività laboratoriale con l’utilizzo di software statistico

    Metodi di valutazione

    Per coloro che frequenteranno regolarmente le lezioni, la verifica avverrà in itinere e con la discussione di un progetto. Il voto complessivo sarà dunque una media semplice del voto dei compiti svolti in itinere e della discussione finale del progetto.
    Per coloro che non frequenteranno regolarmente (meno del 50% delle lezioni). La prova consisterà in una serie di quiz ed una discussione di problema pratico.
    La votazione in trentesimi sarà proporzionale al grado di conoscenza verificata attraverso le prove in itinere e/o quella finale.

    Altre informazioni

    Si raccomanda una frequenza costante e partecipativa. Discuteremo, criticheremo e riformuleremo tecniche di visualizzazione, attraverso esercizi pratici, mostreremo diversi software per la grafica statistica, ecc. Non sono argomenti che gli studenti possono riformulare solo studiando le slides. Se uno studente si assenterà a molte lezioni il suo voto ne può risentire.
    Oltre ai testi consigliati, il docente fornirà articoli scientifici o divulgativi e dispense su argomenti specifici.
    Il laboratorio sarà sviluppato per la maggior parte in R, ma anche altri linguaggi sono ammessi (Matlab, Python).
    Laddove possibile, si consiglia di venire a lezione con un notebook.

    Programma del corso

    Richiami di studio di funzioni in più variabili e di funzioni matriciali. (1 CFU)

    Principi di viasulizzazione grafica(0,5 CFU)
    Alcuni criteri per realizzare dei buoni grafici

    1-d plots (1 CFU)
    Dati numerici e categorici
    Steam and leaf plots
    Diagrammi a barre
    Diagrammi a torta
    Istogrammi
    Density plot (KDE)

    Dati raggruppati (Categorici-numerici, Categorici-categorici)
    Serie storiche
    Diagrammi a spezzata
    Diagrammi ad area

    Grafici per serie territoriali (Mappe)
    Box-plots e grafici derivati
    Violin plots

    Grafici per dati bivariati (1 CFU)
    Dati numerici, categorici and misti

    Scatterplot (Diagrammi di dispersion)
    Bag plots
    Density plots (KDE)
    Heat- maps
    Correlation plots

    Grafici per dati trivariati (0,5 CFU)
    Scatter plot
    Density plots (KDE)
    Contour plots

    Grafici 4-d, interattivi e animati
    (0.5 CFU)

    Visualizzazione di dati multivariati (1 CFU)
    Mosaic plots
    Tree maps e dendrograms
    Parallel coordinates
    Bi-plot
    PCA (cenni)


    Grafici per particolari strutture di dati (1 CFU)
    Dati reticolari
    Network plots
    Dati testuali
    Word clouds
    Grafici per dati di flusso
    Circular plots
    Grafici per matrici di distanze
    Stream graphs

    Software: (3 CFU laboratory)
    R+ggplot
    https://ggplot2.tidyverse.org/
    Pyton+Matplotlib+Seaborn
    https://matplotlib.org/
    https://seaborn.pydata.org/

    English

    Teaching language

    ENGLISH

    Contents

    An effective graphic is a powerful tool for analyzing data and communicating insights. Thanks to visual processing, a good statistical graphic can quickly provide a rich understanding of the data.
    This course will serve to introduce the student to the most common forms of graphical displays and their uses and misuses. Students will learn both how to create these displays and how to understand them. The class will also cover some principles of visual perception and estimation. We will start with univariate and bivariate data, looking at some commonly used graphs and, after discussing their advantages/disadvantages, then turning to more sophisticated tools. We will then explore some three-dimensional tools, group structure/clustering, and projections of higher dimensional data. As time permits, the course will consider some more advanced graphical models such as statistical maps, networks, and the usage of icons.
    The course aim at giving the main methodological and practical skills for analyzing data of different nature using visualization tools, and for discovering first insights and patterns by a visual inspection of data.
    The student will learn how to choose the right tools accordingly to the nature of data, its applicative context and how to do a storytelling supported by data.



    Textbook and course materials

    Recommended textbooks (some are freely available for download from the Library of the University)
    Edward R. Tufte, “The Visual Display of Quantitative Information”
    Leland Wilkinson, The Grammar of Graphics, 2nd edition, Springer
    AA.VV., Handbook of Data Visualization, Springer

    Websites:
    https://ggplot2.tidyverse.org/
    https://matplotlib.org/
    https://seaborn.pydata.org/
    https://towardsdatascience.com/data-visualization/home

    Course objectives

    Upon completing this course, you should be able to:
    1.Explore raw data visually and assess statistical models’ fit using graphical diagnostics
    2.Critique and redesign statistical graphics based on the principles below
    3.Produce legible, self-contained, informative graphics using statistical software
    4.Plan effective statistical graphics using the principles of human visual perception
    5.Model statistical graphics according to the Grammar of Graphics principles
    6.Design multi-chart static works (conference posters, infographics) using the principles of graphic design
    7.Generate interactive data visualizations following the principles of interaction design
    8.Synthesize the data visualization research literature to justify recommendations for graphical practice

    Prerequisites

    Descriptive statistics and basic programming skills.

    Teaching methods

    48 hours of lectures using slides and 36 hours of laboratory activities using statistical software

    Evaluation methods

    For those who attend classes regularly, the verification will take place in progress and with the discussion of a project. The overall grade will therefore be a simple average of the grade of the tasks performed in itinere and of the final discussion of the project.
    For those who do not attend regularly (less than 50% of lessons). The test will consist of a collection of quizzes and a discussion of practical problems.
    The vote goes from 18 to 30 and it will be proportional to the degree of knowledge verified through the task performed in itinere and / or the final exam discussion.

    Other information

    It is expected students to attend class and be actively engaged. We will discuss, critique, and redesign graphics, work through practical exercises, demonstrate useful software, etc. These are not things students can recreate by reading the slides afterwards. If a student misses enough classes, his/her grade will be affected.
    In addition to the recommended textbooks, the teacher will provide scientific or informative articles and notes on specific subjects.
    The laboratory will be developed mostly in R, but other languages are also allowed (Matlab, Python).
    If possible, it encouraged to follow all the lectures with a notebook.

    Course Syllabus

    Recap of multivariable analysis and matrix functions.(1 CFU)

    Main principles of visualization (0,5 CFU)
    Some principles for good visualizations

    1-d plots (1 CFU)
    Numerical data and Categorical data
    Steam and leaf plots
    Bar diagrams
    Pie diagrams
    Histograms
    Density plot (KDE)

    Grouped data (Categorical-numerical, Categorical-categorical)
    Time series
    Line plots
    Areal plots

    Map plot
    Box-plots and related plots
    Violin plots

    2-d plots (1 CFU)
    Numerical, Categorical and Mixed data

    Scatterplot
    Bag plots
    Density plots (KDE)
    Heat- maps
    Correlation plots

    3-d plots (0,5 CFU)
    Scatter plot
    Density plots (KDE)
    Contour plots

    4-d plots, interactive and animation in plots
    (0.5 CFU)

    Visualization of D-dimensional data (1 CFU)
    Mosaic plots
    Tree maps and dendrograms
    Parallel coordinates
    Bi-plot
    Principal Components Analysis


    Plot for particular datasets (1 CFU)
    Network data
    Network plots
    Textual data
    Word clouds
    Plots for flows
    Circular plots
    Plots for Distance matrices
    Stream graphs

    Software: (3 CFU laboratory)
    R+ggplot
    https://ggplot2.tidyverse.org/
    Pyton+Matplotlib+Seaborn
    https://matplotlib.org/
    https://seaborn.pydata.org/

    facebook logoinstagram buttonyoutube logotype