mail unicampaniaunicampania webcerca

    Elvira ROMANO

    Insegnamento di INFERENTIAL STATISTICS

    Corso di laurea in DATA ANALYTICS

    SSD: SECS-S/01

    CFU: 9,00

    ORE PER UNITÀ DIDATTICA: 72,00

    Periodo di Erogazione: Primo Semestre

    Italiano

    Lingua insegnamento

    INGLESE

    Contenuti

    I. Dall’analisi dei dati all’inferenza statistica classica

    Metodi di campionamento e disegno sperimentale per la produzione dei dati. Fondamenti del ragionamento inferenziale.

    II. Inferenza sulle variabili

    Inferenza per la media e per le proporzioni di una popolazione. Problemi con uno e due campioni. Intervalli di confidenza e test di ipotesi per variabili quantitative e categoriali.

    III. Inferenza sulle relazioni tra variabili

    Test del Chi-quadrato per variabili categoriche e tabelle di contingenza. Misure di associazione e analisi della dipendenza statistica tra variabili.

    IV. Inferenza statistica nell’era del computer

    Inferenza computazionale con R.

    Testi di riferimento

    - D. S. Moore, The Basic Practice of Statistics, New York, W. H. Freeman and Company, 2021.
    - B. Efron, T. Hastie, Computer Age Statistical Inference: Algorithms, Evidence, and Data Science, Cambridge, Cambridge University Press, 2016.
    - G. J. Kerns, Introduction to Probability and Statistics Using R, Online, 2010.

    Obiettivi formativi

    Al termine dell’insegnamento, lo studente dovrà raggiungere i seguenti risultati: - Conoscenza e capacità di comprensione: Comprendere le basi metodologiche dell’inferenza classica, la teoria della stima e della verifica delle ipotesi. - Utilizzazione delle conoscenze e capacità di comprensione: Saper applicare metodi inferenziali a problemi reali e utilizzare correttamente il software R. - Capacità di trarre conclusioni (Autonomia di giudizio): Saper scegliere criticamente il metodo inferenziale più adatto per la risoluzione di problemi empirici. - Abilità comunicative: Saper riportare le stime di quantità esprimendo correttamente l’incertezza dei risultati. - Capacità di apprendere: Essere in grado di lavorare autonomamente su progetti di analisi dati nel mondo reale applicando i metodi illustrati.

    Prerequisiti

    È richiesta la conoscenza di Statistica descrittiva e Probabilità (corsi propedeutici).

    Metodi didattici

    L’insegnamento prevede 72 ore totali: 56 ore di lezioni frontali e 16 ore di esercitazioni pratiche con R su casi studio.

    Modalità di verifica dell'apprendimento

    L’esame prevede due prove scritte (intermedia e finale); il voto finale è la media delle due. In alternativa, test scritto e prova orale.

    Altre informazioni

    La frequenza è fortemente suggerita.

    Programma esteso

    1. Introduzione all’Inferenza Statistica (1.5 CFU / 12 ore)

    Introduzione ai principi fondamentali dell’inferenza statistica e al ruolo della statistica nell’analisi dei dati. Richiami di probabilità, variabili casuali e distribuzioni di probabilità discrete e continue. Produzione, raccolta e qualità dei dati; studi osservazionali ed esperimenti controllati. Tecniche di campionamento e problematiche legate alla rappresentatività del campione. Distribuzioni campionarie e introduzione al concetto di variabilità statistica. Fondamenti dei test di significatività statistica, formulazione delle ipotesi nulla e alternativa, interpretazione del p-value ed errori di I e II tipo.

    2. Distribuzioni, Stima e Intervalli di Confidenza (2 CFU / 16 ore)

    Parametri di popolazione e statistiche campionarie. Proprietà degli stimatori: correttezza, consistenza ed efficienza. Legge dei grandi numeri e teorema del limite centrale. Distribuzione della media campionaria e approssimazione normale. Costruzione e interpretazione degli intervalli di confidenza per medie e proporzioni. Livello di confidenza, margine di errore e dimensione campionaria. Introduzione alla potenza statistica e relazione tra dimensione dell’effetto, numerosità campionaria e probabilità di rifiuto dell’ipotesi nulla.

    3. Inferenza su Medie e Proporzioni (3 CFU / 24 ore)

    Distribuzione t di Student e inferenza parametrica in presenza di varianza ignota. Test t a un campione e a due campioni indipendenti; confronto tra medie e verifica delle ipotesi statistiche. Intervalli di confidenza e test per differenze tra medie. Robustezza dei metodi parametrici rispetto alle violazioni delle ipotesi teoriche. Inferenza per proporzioni singole e confronto tra proporzioni. Applicazioni pratiche dell’inferenza statistica attraverso esercitazioni e interpretazione critica dei risultati.

    4. Relazioni tra Variabili e Metodi Computazionali con R (2.5 CFU / 20 ore)

    Analisi delle relazioni tra variabili categoriali mediante tabelle di contingenza e test chi-quadrato di indipendenza. Misure di associazione e interpretazione dei risultati. Introduzione ai metodi computazionali per l’analisi statistica dei dati e all’utilizzo del software R per la manipolazione, visualizzazione ed elaborazione dei dati. Elementi introduttivi di algoritmi statistici per big data, simulazioni e approcci computazionali all’inferenza. Applicazioni pratiche e sviluppo di semplici workflow di analisi statistica in ambiente R.

    English

    Teaching language

    English

    Contents

    I. From Data Analysis to Classical Statistical Inference

    Sampling methods and experimental design for data production. Transition from data collection to statistical inference. Foundations of inferential reasoning in statistics.

    II. Inference for Variables

    Inference for population means and proportions. One-sample and two-sample problems. Confidence intervals and hypothesis testing for quantitative and categorical variables.

    III. Inference for Relationships Between Variables

    Chi-square tests for categorical variables and contingency tables. Measures of association between categorical variables and analysis of statistical dependence.

    IV. Statistical Inference in the Computer Age

    Computational inference using R.

    Textbook and course materials

    - D. S. Moore, The Basic Practice of Statistics, New York, W. H. Freeman and Company, 2021.
    - B. Efron, T. Hastie, Computer Age Statistical Inference: Algorithms, Evidence, and Data Science, Cambridge, Cambridge University Press, 2016.
    - G. J. Kerns, Introduction to Probability and Statistics Using R, Online, 2010.

    Course objectives

    The course aims at providing metodological basis of Inferential Statistics. Since Inferential statistics is built on the foundation of probability theory, the first part of the course will focus on basic probability. Subsequently, the course will deal with the theory of point estimation, interval estimation, hypothesis testing. At least the course will look into some modern algorithmic methodologies for the analysis of big data within the framework of the statistical theory of inference.
    Analysing several data examples, using R and R studio (free statistical software), students will learn to report estimates of quantities in a way that expresses the uncertainty of the quantity of interest.

    At the end of the course, students will have to demonstrate to be able to work on a real world data analysis project which should explore and put to work some of the methods illustrated during the course.

    Prerequisites

    Maturity in Statistics and Probability is required.

    Teaching methods

    72 total hours: 56 hours of classroom and 16 hours of exercises with R on real cases.

    Assessment methods

    Two written tests (midterm and final); average score determines the grade. Otherwise, written test and oral exam.

    Other information

    Attendance is strongly recommended.

    Detailed syllabus

    1. Introduction to Statistical Inference (1.5 ECTS / 12 hours)

    Introduction to the fundamental principles of statistical inference and the role of statistics in data analysis. Review of probability theory, random variables, and discrete and continuous probability distributions. Data generation, collection, and quality assessment; observational studies and controlled experiments. Sampling techniques and issues related to sample representativeness. Sampling distributions and the concept of statistical variability. Foundations of statistical significance testing, formulation of null and alternative hypotheses, interpretation of p-values, and Type I and Type II errors.

    2. Distributions, Estimation, and Confidence Intervals (2 ECTS / 16 hours)

    Population parameters and sample statistics. Properties of estimators, including unbiasedness, consistency, and efficiency. Law of Large Numbers and Central Limit Theorem. Distribution of the sample mean and normal approximation methods. Construction and interpretation of confidence intervals for means and proportions. Confidence level, margin of error, and sample size determination. Introduction to statistical power and the relationship between effect size, sample size, and hypothesis testing.

    3. Inference for Means and Proportions (3 ECTS / 24 hours)

    Student’s t-distribution and parametric inference under unknown population variance. One-sample and two-sample t-tests; comparison of means and hypothesis testing procedures. Confidence intervals and tests for differences between means. Robustness of parametric methods under violations of theoretical assumptions. Statistical inference for single proportions and comparisons between proportions. Practical applications of inferential methods through data analysis exercises and critical interpretation of statistical results.

    4. Relationships Between Variables and Computational Methods with R (2.5 ECTS / 20 hours)

    Analysis of relationships between categorical variables through contingency tables and chi-square tests of independence. Measures of association and interpretation of statistical outcomes. Introduction to computational approaches for statistical data analysis and the use of R for data manipulation, visualization, and statistical computing. Introductory concepts in statistical algorithms for big data, simulation-based methods, and computational inference techniques. Practical applications and development of basic statistical analysis workflows in the R environment.

    facebook logoinstagram buttonyoutube logotype