mail unicampaniaunicampania webcerca

    Silvio BACCARI

    Insegnamento di WEB INTELLIGENCE

    Corso di laurea magistrale in DATA SCIENCE

    SSD: ING-INF/05

    CFU: 6,00

    ORE PER UNITÀ DIDATTICA: 48,00

    Periodo di Erogazione: Primo Semestre

    Italiano

    Lingua di insegnamento

    Inglese

    Contenuti

    Il corso fornisce un'introduzione ai metodi per indagare il comportamento degli utenti su siti web e sui social network. In particolare, verranno affrontate le tecniche per la valutazione dei contenuti, la quantificazione della somiglianza ed il posizionamento dei risultati di ricerca, la gestione della conoscenza in applicazioni web-based, il web semantico e le ontologie, dei dati accessibili per la condivisione e la collaborazione, le tecniche linguistiche e statistiche per il text mining e l'analisi dei contenuti ed i sistemi di raccomandazione semantica.
    In particolare saranno approfonditi i seguenti temi:
    -Il recupero di informazioni e la ricerca sul web;
    -La scansione del web e l’automazione del processo di aggiornamento;
    -L’estrazione dei dati strutturati da sorgenti eterogenee;
    -L’analisi del sentimento, la formazione e l’estrazione opinioni;
    -L’estrazione di informazioni sull’utilizzo del web;
    -I sistemi di gradimento (recommendation);
    -Estrazione dei grafici dai social network.

    Testi di riferimento

    Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining Massive Datasets (2nd Edition), Cambridge University Press, 2015 ISBN 978- 1107077232

    Bing Liu , Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data Springer 2011, ISBN 978- 3642194597

    Charu C. Aggarwal, Data Mining – The Textbook, Springer ISBN 2015 978-3-319-14141-1

    Mark Newman, Networks, Oxford University Press, 2018, ISBN 9780192527493

    Andrea Isoni, Machine Learning
    for the Web, PACKT Publishing, 2016, ISBN 978-1-78588- 660-7

    Albert-László Barabási, Network Science, Cambridge University Press, 2016 , ISBN 9781107076266

    Obiettivi formativi

    Gli obiettivi principali del corso sono:
    • Spiegare come funzionano i motori di ricerca e come avviene il recupero delle informazioni e come funzionano
    • Fornire esempi di come l'analisi del sentimento può essere applicata a ai social e ad applicazioni aziendali, sapere come identificare l’accadimento di eventi attraverso l'analisi dei social.
    • Presentare diverse applicazioni per l'analisi del sentimento e della formazione delle opinioni
    • Definire i principali sistemi di raccomandazione e spiegare il funzionamento esempi di applicazioni reali
    • Dimostrare come l’estrazione di grafici può essere applicato ai social network e fornire esempi di problemi che possono essere risolti con queste tecniche.
    • Presentare metodi avanzati per la scansione del web e l'estrazione di dati strutturati.
    • Sapere analizzare i registry delle attività(logs) generati dagli utenti nei registri del server Web può portare ad una migliore comprensione dei siti Web e dell'utente.
    • Individuare le criticità nell’estrazione della conoscenza dai dati.

    Gli studenti impareranno come la semantica e i data accessibili vengono utilizzati per estrarre, rappresentare e fornire conoscenze sul web, nonché come possono essere utilizzati in applicazioni intelligenti; formeranno la capacità di utilizzare le tecnologie semantiche e i dati collegati aperti per analizzare i contenuti web non strutturati e costruire sistemi di raccomandazione semantica e altre soluzioni intelligenti e capaci di definire ontologie che possono essere estese e riutilizzate da applicazioni di altre persone.

    Prerequisiti

    Programmazione
    Statistica

    Metodologie didattiche

    Lezioni teoriche ed esercitazioni pratiche in laboratorio, utilizzando Python e applicazioni ad hoc.
    Le lezioni di laboratorio possono essere seguite individualmente utilizzando il materiale disponibile al Corso.

    Metodi di valutazione

    Il raggiungimento degli obiettivi del corso è accertato attraverso una prova scritta (un progetto) e una discussione del progetto. L'esame orale consiste in domande aperte che consentono di verificare le conoscenze teoriche. I progetti e le loro discussioni saranno utilizzati per valutare la capacità degli studenti di utilizzare i metodi presentati nel corso e di implementare gli strumenti basati su di essi.
    Gli argomenti per i progetti verranno assegnati su richiesta e saranno in parte basati su esercitazioni pratiche proposte durante le lezioni di laboratorio (per gli studenti frequentanti il ​​corso). I progetti possono essere completati in piccoli gruppi, a condizione che i singoli contributi possano essere chiaramente identificati.
    I progetti contribuiranno al voto finale e saranno valutati in base a correttezza, efficienza, documentazione del codice e qualità del rapporto e capacità degli studenti di discutere l'implementazione e la teoria pertinente. Nel caso di progetti di gruppo, il voto è individuale e tiene conto anche del contributo, dichiarato o valutato al momento della discussione, e della dimensione del gruppo.
    Il progetto dovrà essere consegnato prima della prova orale e sarà discusso nell'ambito della prova orale.
    L’elaborato contribuisce alla valutazione del 50% del voto dell’esame finale.

    Altre informazioni

    Nessuna

    Programma del corso

    1. Recupero delle informazioni e ricerca sul web
    a. concetti di base del recupero delle informazioni
    b. misure di pertinenza
    c. misure di valutazione
    d. elaborazione preventive di testi e pagine Web
    e. indice invertito
    f. Indicizzazione semantica latente
    2. Scansione del Web ed automazione
    3. Estrazione di dati strutturati
    4. Analisi del sentimento ed analisi delle opinioni
    a. applicazioni
    b. il problema della determinazione del Sentimento
    c. classificazione del sentimento espresso nel document
    d. soggettività dell’espressione scritta e classificazione dei sentimenti
    5. Estrazione dei dati di utilizzo del Web
    a. raccolta e pretrattamento dei dati
    b. modellazione dei dati
    6. Sistemi di valutazione
    a. concetti di base (matrice di utilità, Long Tail, applicazioni)
    b. valutazioni basate sul contenuto
    c. filtro collaborativo
    d. riduzione delle dimensioni
    7. creazione dei grafici nelle reti social
    a. i social network come grafici
    b. aggregazione di grafici
    c. rilevazione di comunità
    d. rilevazione di eventi nei social network

    English

    Teaching language

    English

    Contents

    The course provides an introduction to methods for investigating user's behavior on web sites and social networks. In particular, techniques for content recommendation, similarity quantification and search result ranking will be addressed,
    knowledge management in web-based applications, semantic web and ontologies, open linked data for sharing and collaboration, linguistic and statistical techniques for text mining and content analysis, semantic recommender systems. In particular, the following topics will be studied in depth :
    -Information retrieval and web search;
    -Web Crawling and automation;
    -Structured Data Extraction;
    -Sentiment Analysis and Opinion Mining;
    -Web Usage Mining;
    -Recommendation Systems;
    -Mining Social-Network Graphs.

    Textbook and course materials

    Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining Massive Datasets (2nd Edition), Cambridge University Press, 2015 ISBN 978- 1107077232

    Bing Liu , Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data Springer 2011, ISBN 978- 3642194597

    Charu C. Aggarwal, Data Mining – The Textbook, Springer ISBN 2015 978-3-319-14141-1

    Mark Newman, Networks, Oxford University Press, 2018, ISBN 9780192527493

    Andrea Isoni, Machine Learning
    for the Web, PACKT Publishing, 2016, ISBN 978-1-78588- 660-7

    Albert-László Barabási, Network Science, Cambridge University Press, 2016 , ISBN 9781107076266

    Course objectives

    The main objectives of the course are to:
    • Explain the connection of information retrieval with search engines and how they work
    • Provide examples of how sentiment analysis can be applied on multiple social and business applications, know how to identify events through the analysis of social networks
    • Present the different applications of sentiment analysis and opinion mining
    • Define the main types of recommendation systems, explain how recommendation systems work and give examples of real world applications
    • Demonstrate how graph mining can be applied on social networks and provide examples of problems that can be solved with these techniques.

    • Present advanced methods for web crawling and structured data extraction.
    • Know how the analysis of user-generated data in web server logs can lead to improving web sites and understanding the users.
    • Explain the challenges of extracting knowledge from data.

    Students will learn how semantics and open data are used to extract, represent and provide knowledge on the web, as well as how they can be used in intelligent applications. Ability to use semantic technologies and open linked data to analyze unstructured web content and build semantic recommender systems and other intelligent solutions. Ability to define ontologies that may be extended and reused by other peoples' applications.

    Prerequisites

    Programming
    Statistics

    Teaching methods

    Theoretical lessons and practical exercises in the laboratory, using Python and ad hoc applications.
    Lab classes can be taken individually using the material which is available at course.

    Evaluation methods

    The achievement of the course objectives is assessed through a written examination (a project) and a discussion of the project. The oral exam consists of open questions that allow to test the theoretical knowledge. The projects and their discussions will be used to assess the ability of the students in using the methods presented in the course and implementing tools based on them.

    The topics for the projects will be assigned on request and will be partially based on practical exercices proposed during lab classes (for students attending the course). Projects can be completed in small groups, provided that individual contributions can be clearly identified.

    Projects will contribute to the final grade and will be graded based on correctness, efficiency, code documentation and report quality, and capability of the students to discuss the implementation and the relevant theory. In the case of group projects, the grade is individual and also accounts for contribution, either declared or assessed at discussion time, and group size.

    The project must be delivered before the oral exam and will be discussed as part of the oral exam. The project contributes to the overall evaluation of the exam with a weight of 50%.

    Other information

    None

    Course Syllabus

    1. Information retrieval and web search
    a. Basic concepts of information retrieval
    b. Relevance Feedback
    c. Evaluation Measures
    d. Text and Web Page Pre Processing
    e. Inverted Index
    f. Latent Semantic Indexing
    2. Web Crawling and automation
    3. Structured Data Extraction
    4. Sentiment Analysis and Opinion Mining
    a. Applications
    b. The problem of Sentiment Analysis
    c. Document Sentiment Classification
    d. Sentence Subjectivity and Sentiment Classification
    5. Web Usage Mining
    a. Data Collection and Pre-Processing
    b. Data Modeling
    6. Recommendation Systems
    a. Basic Concepts (Utility Matrix, Long Tail, Applications)
    b. Content-Based Recommendations
    c. Collaborative Filtering
    d. Dimensionality Reduction
    7. Mining Social-Network Graphs
    a. Social Networks as Graphs
    b. Clustering of Social Network Graphs
    c. Community Detection
    d. Event Detection in Social Networks

    facebook logoinstagram buttonyoutube logotype