mail unicampaniaunicampania webcerca

    Mauro IACONO

    Insegnamento di BIOINFORMATICS

    Corso di laurea in DATA ANALYTICS

    SSD: INF/01

    CFU: 6,00

    ORE PER UNITÀ DIDATTICA: 56,00

    Periodo di Erogazione: Secondo Semestre

    Italiano

    Lingua di insegnamento

    Italiano

    Contenuti

    La bioinformatica è una materia interdisciplinare che include la conoscenza di varie discipline come la matematica, la statistica, l’informatica, la biologia e l’ingegneria dell'informazione. Per questo motivo, il corso di bioinformatica mira a fornire una panoramica dei principali metodi per l'analisi dei dati riguardanti le scienze della vita. L'aspetto pratico dell'analisi dei dati riceverà un'attenzione particolare con esempi su dati reali attraverso l'uso del software statistico R.
    I temi principali affrontati durante il corso sono: l'ambiente di programmazione R per l'analisi dei dati biologici; l'analisi statistica con due, tre o più variabili con particolare attenzione alla comprensione dei concetti di effetto causale, associazione, fattore confondente, mediazione, moderazione e correlazione spuria; le differenze tra esperimenti randomizzati e studi osservazionali; le possibili soluzioni metodologiche per affrontare gli studi osservazionali; la classificazione dei dati biologici.

    Testi di riferimento

    Libro principale:
    Claus Thorn Ekstrom and Helle Sorensen, 2015.
    Introduction to Statistical Data Analysis for the Life Sciences (2nd edition). CRC Press. ISBN 9781482238938.

    Altri libri consigliati il cui utilizzo può essere sostituito dalle slides che verranno fornite durante il corso:

    Miguel A. Hernán, James M. Robins, 2019. Causal Inference. Available at: https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/

    Jae K. Lee, 2014. Statistical Bioinformatics: For Biomedical and Life Science Researchers (1st Edition). Wiley-Blackwell. ISBN-13: 978-0471692720.

    Ronald N. Forthofer, Eun Sul Lee, Mike Hernandez, 2006. Biostatistics: A Guide to Design, Analysis and Discovery (2nd Edition). Academic Press. ISBN-13: 978-0123694928.

    Obiettivi formativi

    Obiettivi formativi:
    Seguendo gli obiettivi generali della laurea triennale in Data Analytics, il corso di Bioinformatica persegue l'obiettivo di fornire agli studenti conoscenze e competenze avanzate per formare professionisti con competenze matematiche e statistiche per la comprensione e l'elaborazione dei dati riguardanti le scienze della vita. L'obiettivo specifico del corso è quello di consentire agli studenti di acquisire familiarità con i metodi informatico-statistici per l'elaborazione, l'analisi, la previsione, la presentazione e l'interpretazione dei risultati di alcune metodologie statistiche avanzate comunemente utilizzate in bioinformatica, biostatistica e informatica.

    Risultati di apprendimento attesi:
    Il corso si propone di fornire agli studenti le conoscenze e le tecniche teoriche necessarie per una comprensione approfondita dei fenomeni biologici attraverso l'analisi dei dati disponibili.

    Per quanto riguarda il profilo professionale che il corso di studi mira a formare, l'insegnamento è finalizzato allo sviluppo delle seguenti abilità:

    1) Conoscenza e comprensione:
    - conoscenze approfondite e specialistiche necessarie per la raccolta e l'organizzazione di dati biologici;
    - conoscenze approfondite e specialistiche necessarie per l'analisi dei dati biologici attraverso il software statistico R;
    - conoscenze approfondite e specialistiche necessarie per la presentazione dei risultati ottenuti dall'analisi dei fenomeni biologici.

    2) L'autonomia di giudizio:
    - capacità di scegliere autonomamente il tipo di analisi più adatto in base al contesto di riferimento e al tipo di dati biologici disponibili;
    - capacità di interpretare i risultati ottenuti autonomamente attraverso analisi statistiche avanzate.

    3) Capacità di comunicazione/applicazione:
    - utilizzare la terminologia statistica appropriata per il tipo di analisi condotta;
    - applicare le conoscenze acquisite per la diagnosi e la comprensione dei fenomeni biologici;
    - comunicare in modo intelligente i risultati di un'analisi statistica basata sugli obiettivi da perseguire e il destinatario del report.

    Prerequisiti

    Si raccomanda la conoscenza dei concetti essenziali di statistica di base.

    Metodologie didattiche

    L'insegnamento è strutturato in lezioni frontali, suddivise in lezioni teoriche e sessioni pratiche utilizzando il software R.

    Metodi di valutazione

    La valutazione del livello di apprendimento degli studenti verrà effettuata con un test al computer e una successiva discussione orale.
    Il test al computer consiste in esercizi relativi ai metodi che verranno illustrati durante il corso e può contenere alcune domande sulla teoria.
    La durata di questo test dipenderà dal grado di difficoltà delle domande proposte e sarà comunicata durante il corso.
    L'obiettivo principale del test pratico è dimostrare la propria "conoscenza" ed il proprio "know-how". L'esame orale è invece finalizzato a sondare le abilità comunicative, la padronanza del linguaggio tecnico specifico della disciplina trattata, la chiarezza dell'esposizione e la capacità di interpretazione.
    I metodi d'esame sono gli stessi per gli studenti frequentanti e non frequentanti. Gli studenti non frequentanti potranno contattare il professore per entrare in possesso delle slides del corso, in particolare su alcuni argomenti che sono presenti nei libri addizionali suggeriti ma non sono presenti o sono trattati solo marginalmente nel libro principale.

    Programma del corso

    I temi principali affrontati durante il corso sono:
    - L'ambiente di programmazione R per l'analisi dei dati biologici.
    - Organizzazione dei dati e analisi esplorativa dei dati riguardanti le scienze della vita.
    - Revisione delle principali distribuzioni di probabilità utilizzate in bioinformatica.
    - Esperimenti randomizzati e studi osservazionali.
    - L'analisi statistica con due, tre, o più variabili: le principali misure di associazione utilizzate in bioinformatica, fattori confondenti, mediazione, moderazione, correlazioni spurie, l'uso dei grafici in bioinformatica.
    - Confronto tra gruppi; test per campioni appaiati e non; ANOVA a una via; ANOVA a due vie; test non parametrici; il problema dei test multipli.
    - Il modello di regressione lineare multipla.
    - Il modello di regressione con variabili strumentali.
    - Il modello di regressione logistica.
    - I test diagnostici.
    - La stima della dimensione del campione.
    - L’analisi di sopravvivenza.
    - Il “Propensity score matching”.
    - La “Sensitivity analysis”.
    - La misurazione della biodiversità.
    - La classificazione supervisionata e non supervisionata per dati biologici.
    - Alcune note su recenti argomenti di ricerca che sono rilevanti in bioinformatica e biostatistica: inferenza causale, potential outcome framework, reti Bayesiane.

    English

    Teaching language

    English

    Contents

    Bioinformatics is an interdisciplinary subject that includes knowledge of mathematics, statistics, computer science, biology, and information engineering. For this reason, the bioinformatics course aims to provide an overview of the primary methods for analysing life sciences data. The practical aspect of data analysis will receive particular attention through real-life examples with the use of the R statistical software. The main themes addressed during the course are: the R programming environment for the analysis of biological data; the statistical analysis with two, three, or more variables with particular attention to understanding the problems of causal effect, association, confounding, mediation, moderation, and spurious correlations; the differences between randomised experiments and observational studies; the possible methodological solutions to deal with observational studies; the classification of biological data.

    Textbook and course materials

    Main book:
    Claus Thorn Ekstrom and Helle Sorensen, 2015.
    Introduction to Statistical Data Analysis for the Life Sciences (2nd edition). CRC Press. ISBN 9781482238938.

    Other recommended books, whose use can be replaced by the slides provided during the course:

    Miguel A. Hernán, James M. Robins, 2019. Causal Inference. Available at: https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/

    Jae K. Lee, 2014. Statistical Bioinformatics: For Biomedical and Life Science Researchers (1st Edition). Wiley-Blackwell. ISBN-13: 978-0471692720.

    Ronald N. Forthofer, Eun Sul Lee, Mike Hernandez, 2006. Biostatistics: A Guide to Design, Analysis and Discovery (2nd Edition). Academic Press. ISBN-13: 978-0123694928.

    Course objectives

    Educational goals:
    Following the general objectives of the Bachelor's Degree in Data Analytics, the Bioinformatics course pursues the aim of providing students with advanced knowledge and skills to train professionals with mathematical-statistical skills for understanding and processing life science data. The specific objective of the course is to allow students to become familiar with the statistical-informatics methods for data processing, analysis, forecasting, presentation, and interpretation of the results of some advanced statistical methodologies commonly used in bioinformatics, biostatistics, and computer science.

    Expected learning outcomes:
    The course aims to provide students with theoretical knowledge and techniques necessary for an in-depth understanding of biological phenomena through the analysis of available data.

    Concerning the professional profile that the course of study aims to train, teaching is aimed at developing the following skills:

    1) Knowledge and understanding:
    - in-depth and specialised knowledge necessary for the collection and organisation of biological data;
    - in-depth and specialised knowledge necessary for the analysis of biological data through the statistical software R;
    - in-depth and specialised knowledge necessary for the presentation of the results obtained from the analysis of biological phenomena.

    2) The autonomy of judgment:
    - ability to independently choose the most suitable type of analysis based on the reference context and the type of biological data available;
    - ability to interpret the results obtained autonomously through advanced statistical analysis.

    3) Communication/application skills:
    - to use the appropriate statistical terminology for the type of analysis conducted;
    - to apply the acquired knowledge for the diagnosis and understanding of biological phenomena;
    - cleverly communicate the results of a statistical analysis based on the objectives to be pursued and the recipient of the report.

    Prerequisites

    It is recommended to know the essential concepts of basic statistics.

    Teaching methods

    Teaching is structured in frontal lessons, divided into theoretical lessons and practical sessions using the R software.

    Evaluation methods

    The assessment of students' learning level will be carried out with a computer test and a subsequent oral discussion.
    The computer test consists of exercises related to the methods that will be illustrated during the course and can contain some questions about the theory.
    The duration of this test will depend on the degree of difficulty of the proposed questions and will be communicated during the course.
    The main objective of the practical test is to prove "knowledge" and "know-how". Instead, the oral exam is aimed at probing communication skills, mastering the specific technical language of the discipline dealt with, clarity of exposition and the ability to interpret.
    The exam methods are the same for attending and non-attending students. Non-attending students can contact the professor to get hold of the slides of the course, in particular on some topics that are present in the additional suggested books but are not present or are treated marginally in the main book.

    Course Syllabus

    The main themes addressed during the course are:
    - The R programming environment for the analysis of biological data.
    - Data organisation and the exploratory analysis of life science data.
    - Review of the main probability distributions used in bioinformatics.
    - Randomised experiments versus observational studies.
    - The statistical analysis with two, three, or more variables: the main association measures used in bioinformatics, confounders, mediation, moderation, spurious correlations, the use of graphs in bioinformatics.
    - Comparison of groups; tests for paired and unpaired samples; one-way ANOVA; two-way ANOVA; non-parametric tests; the multiple testing problem.
    - The multiple linear regression model.
    - Instrumental variable regression model.
    - The logistic regression model.
    - Diagnostic tests.
    - Sample size estimation.
    - Survival analysis.
    - Propensity score matching.
    - Sensitivity analysis.
    - Measuring biodiversity.
    - Unsupervised and supervised classification for biological data.
    - Some notes on recent research topics that are relevant in bioinformatics and biostatistics: causal inference, potential outcome framework, Bayesian networks.

    facebook logoinstagram buttonyoutube logotype