mail unicampaniaunicampania webcerca

    Elvira ROMANO

    Insegnamento di INFERENTIAL STATISTICS

    Corso di laurea in DATA ANALYTICS

    SSD: SECS-S/01

    CFU: 9,00

    ORE PER UNITÀ DIDATTICA: 84,00

    Periodo di Erogazione: Primo Semestre

    Italiano

    Lingua di insegnamento

    INGLESE

    Contenuti

    I. Dall'analisi dei dati all'inferenza statistica classica :La produzione dei dati: il campionamento; La produzione dei dati gli esperimenti.
    II.Inferenza sulle variabili: Inferenza per la media di una popolazione; Problemi con due campioni; Inferenza per la proporzione di una popolazione; Confronto tra due proporzioni. III.Inferenza sulle relazioni:Il test del Chi-quadrato per variabili categoriche; Inferenza nel modello di regressione;Analisi della varianza ad una via: confronto tra medie. Inferenza statistica nell'era del computer: Inferenza statistica con R.

    Testi di riferimento

    1. The Basic Practice of Statistics. DAVID S. MOORE. Purdue University. W. H. Freeman and Company. New York
    2. Computer Age Statistical Inference Algorithms, Evidence, and Data Science. B. Efron and T. Hastie Stanford University . (http: // www. cambridge. org/ 9781107149892)
    3. Introduction to Probability and Statistics Using R. (G. Jay Kerns)

    Obiettivi formativi

    Il corso ha l'obiettivo di fornire le basi metodologiche dell'inferenza statistica classica. Dal momento che l'inferenza statistica si basa sulla teoria della probabilità, la prima parte del corso è incentrata su richiami di concetti di base di probabilità. Verrà pertanto introdotta la teoria dell'inferenza statistica classica e saranno trattati i temi della stima e la teoria della verifica delle ipotesi. Saranno inoltre introdotti algoritmi di campionamento per l'analisi di big data.

    Al termine del corso lo studente: conoscerà i principi dell'inferenza statistica; saprà scegliere criticamente quale metodo inferenziale utilizzare per la risoluzione di problemi reali e saprà inoltre utilizzare il software statistico R.

    Prerequisiti

    L’approccio al programma formativo richiede conoscenze di Statistica descrittiva e Probabilità; pertanto sono propedeutici i corsi di Statistica descrittiva e Probabilità.

    Metodologie didattiche

    Il corso è articolato 84 ore di lezioni frontali di cui 48 di lezione e 24 ore di esercitazione, il tutto svolto in laboratorio di calcolo.
    La frequenza non è obbligatoria, ma fortemente suggerita.

    Metodi di valutazione

    Per la verifica dell'apprendimento è prevista una prova scritta a metà del corso ed
    un elaborato scritto relativo ad un caso studio risolto utilizzando il software R. La votazione attribuita allo studente scaturirà da una media delle due prove.

    Altre informazioni



    Programma del corso

    I INTRODUZIONE ALL'INFERENZA
    Richiami di Probabilità
    Dall'analisi dei dati all'inferenza: La produzione dei dati: il campionamento. Campioni casuali semplici. Altri disegni campionari. I pericoli di un'indagine campionaria. Inferenza sulla popolazione.
    Test di significatività: le basi. IL P-VALUE e la significatività statistica. Test per la media della popolazione.
    Le distribuzioni campionarie. Parametri e statistiche. Stima statistica e legge dei grandi numeri. Distribuzioni
    campionarie. La distribuzione campionaria della media. Il teorema del limite centrale.
    Intervalli di confidenza:
    Stima e confidenza. Intervalli di confidenza per la media μ. Il comportamento degli
    intervalli di confidenza. Scegliere la numerosità campionaria.
    I test di significatività
    La logica dei test di significatività. La verifica delle ipotesi. La statistica test. Il valore P. Significatività statistica. Test sulla media di popolazione Valori P e livelli di significatività. Test statistici e intervalli di confidenza.
    L’inferenza in pratica
    L’origine dei dati. Precauzioni sulle procedure z. Precauzioni sugli intervalli di confidenza. Precauzioni sui test di significatività. La potenza di un test. Errori di prima e seconda specie.
    II. INFERENZA SULLE VARIABILI
    Inferenza per la media di una popolazione
    Le condizioni per fare inferenza. Le distribuzioni t. Intervalli di confidenza t ad un campione. Usiamo il computer. Il test t ad un campione. Procedure t per dati appaiati. Robustezza delle procedure basate sulla t.
    Problemi con due campioni. Confronto delle medie di due popolazioni. Procedure t a due campioni. Esempi di procedure t a due campioni. La robustezza. Il test F per il confronto di due deviazioni standard. Inferenza per la proporzione di una popolazione
    La proporzione campionaria . La distribuzione campionaria della proporzione. Condizioni per l’inferenza. Intervalli di confidenza per una proporzione con grandi campioni. La scelta dell’ampiezza campionaria. Test di significatività per la proporzione.
    Confronto tra due proporzioni
    Problemi a due campioni: le proporzioni. La distribuzione campionaria della differenza tra proporzioni. Intervalli di confidenza per il confronto di due proporzioni con grandi campioni. i test di significativita` per il confronto di proporzioni.
    III. INFERENZA SULLE RELAZIONI
    Due variabili categoriche: il test chi-quadrato
    Tabelle a doppia entrata. Il problema dei confronti multipli. Frequenza teoriche nelle tabelle a doppia entrata. Il test chi-quadrato. Usiamo il computer. La distribuzione chi-quadrato. Gli usi del test chi-quadrato. Frequenze delle celle necessarie per applicare il test chi-quadrato. Il test chi-quadrato per la bontà di adattamento.
    Inferenza per la regressione
    Il modello di regressione. Stima dei parametri del modello di regressione. Intervalli di confidenza per β. Verifica dell’ipotesi di assenza di relazione lineare. Inferenza per la previsione. Le condizioni per l’inferenza nel modello di regressione.
    IV. INFERENZA STATISTICA avanzata: Inferenza statistica, Inferenza sulle variabili, inferenza sui rapporti con R.
    Analisi di regressione ed inferenza statistica per big data con R: gli algoritmi e la scienza dei dati.

    English

    Teaching language

    English

    Contents

    I. FROM EXPLORATION TO CLASSICAL INFERENCE: Producing data: Sampling and Experiments; Probability and Sampling distributions
    II. INFERENCE ABOUT VARIABLES: Inference about population Mean; Comparing two proportions; Inference about proportion
    III. INFERENCE ABOUT RELATIONSHIPS: Two categorical variables: The Chi-square test; Inference for Regression; One way analysis of variance: Comparing several means
    IV. COMPUTER AGE STATISTICAL INFERENCE: Statistical inference with R.

    Textbook and course materials

    1. The Basic Practice of Statistics. DAVID S. MOORE. Purdue University. W. H. Freeman and Company. New York
    2. Computer Age Statistical Inference Algorithms, Evidence, and Data Science. B. Efron and T. Hastie Stanford University . (http: // www. cambridge. org/ 9781107149892)
    3. Introduction to Probability and Statistics Using R. (G. Jay Kerns)

    Course objectives

    The course aims at providing metodological basis of Inferential Statistics. Since Inferential statistics is built on the foundation of probability theory, the first part of the course will focus on basic probability. Subsequently, the course will deal with the theory of point estimation, interval estimation, hypothesis testing. At least the course will look into some modern algorithmic methodologies for the analysis of big data within the framework of the statistical theory of inference.
    Analysing several data examples, using R and R studio (free statistical software), students will learn to report estimates of quantities in a way that expresses the uncertainty of the quantity of interest.

    At the end of the course, students will have to demonstrate to be able to work on a real world data analysis project which should explore and put to work some of the methods illustrated during the course.

    Prerequisites

    The course demands a degree of maturity in Statistics and Probability.

    Teaching methods

    Number of course hours is 84, 48 of classroom and 36 of practical work with R on real case studies.

    Evaluation methods

    Written mid-term exam and (individual) project. The project is due by the end of the course.
    The project work, and the written exam, will be evaluated on the basis of: the f student’s knowledge of the basic concepts evaluated by the written exam; the student’s capacity to apply studied methods on real data problems by project presentation. The final grade is obtained as the weighted sum of the grades of the written exam (50%) and the project (50%).

    Other information



    Course Syllabus

    I. FROM DATA PRODUCTION TO INFERENCE :The idea of probability: main notions of probability and Theorems
    Sampling Distributions Parameters and statistics; Statistical estimation and the law of large numbers; Sampling distributions; The sampling distribution;The central limit theorem ; Sampling distributions and statistical significance
    Confidence Intervals: The Basics The reasoning of statistical estimation ; Margin of error and confidence level ;Confidence intervals for a population mean; How confidence intervals behave.
    Tests of Significance: The Basics The reasoning of tests of significance Stating hypotheses ; P-value and statistical significance ;Tests for a population mean; Significance from a table.
    Inference in Practice Conditions for inference in practice;Cautions about confidence intervals ;Cautions about significance tests ;Planning studies: Sample size for confidence intervals; Planning studies: The power of a statistical test*
    II. INFERENCE ABOUT VARIABLES
    Inference about a Population Mean Conditions for inference about a mean ; The t distributions ;The one-sample t confidence interval; The one-sample t test; Robustness of t procedures
    Comparing Two Means Two-sample problems; Comparing two population means;Two-sample t procedures ;Using technology ;Robustness again ;Details of the t approximation; Avoid the pooled two-sample t procedures ; Avoid inference about standard deviations*
    Inference about a Population Proportion The sample proportion ; Large-sample confidence intervals for a proportion; Choosing the sample size ; Significance tests for a proportion; Plus four confidence intervals for a proportion
    Comparing Two Proportions Two-sample problems: Proportions ;The sampling distribution of a difference between proportions; Large-sample confidence intervals for comparing proportions; Using technology; Significance tests for comparing proportions ;Plus four confidence intervals for comparing proportions*
    III. INFERENCE ABOUT RELATIONSHIPS
    Two Categorical Variables: The Chi-Square Test Two-way tables;The problem of multiple comparisons; Expected counts in two-way tables ; The chi-square test statistic; Using technology ; The chi-square distributions; Cell counts required for the chi-square test; Uses of the chi-square test: Independence and homogeneity; The chi-square test for goodness of fit
    Inference for Regression Conditions for regression inference; Estimating the parameters ; Testing the hypothesis of no linear relationship; Testing lack of correlation ;Confidence intervals for the regression slope ; Inference about prediction; Checking the conditions for inference
    One-Way Analysis of Variance:
    Comparing Several Means: Comparing several means; The analysis of variance F test; Using technology ; The idea of analysis of variance ; Conditions for ANOVA ; F distributions and degrees of freedom.
    IV. COMPUTER AGE STATISTICAL INFERENCE: Statistical inference, Inference about variables, inference about relationships with R.
    Regression analysis and frequentist analysis for big data with R: the algorithms and data science.

    facebook logoinstagram buttonyoutube logotype