- Didattica
- Laurea Magistrale in MATEMATICA
- Metodi matematici per l'intelligenza artificiale
Metodi matematici per l'intelligenza artificiale
- Insegnamento
- Metodi matematici per l'intelligenza artificiale
- Insegnamento in inglese
- Settore disciplinare
- MAT/07
- Corso di studi di riferimento
- MATEMATICA
- Tipo corso di studio
- Laurea Magistrale
- Crediti
- 9.0
- Ripartizione oraria
- Ore Attività Frontale: 63.0
- Anno accademico
- 2022/2023
- Anno di erogazione
- 2022/2023
- Anno di corso
- 1
- Lingua
- ITALIANO
- Percorso
- MATEMATICA PER L'INTELLIGENZA ARTIFICIALE
- Docente responsabile dell'erogazione
- BARRA ADRIANO
- Sede
- Lecce
Descrizione dell'insegnamento
Conditio sine qua non è ovviamente solo una laurea Triennale in Matematica o Fisica, ma un'opportuna conoscenza dei seguenti argomenti permette una comprensione del corso significativamente migliore:
-Probabilità & Statistica
-Equazioni alle derivate parziali
-rudimenti di Meccanica Analitica
-rudimenti di Meccanica Statistica
il corso segue una prospettiva storica ed analizza (fornendo modelli e metodi espliciti in ogni dettaglio) il ruolo della matematica nella modellizazione della processazione d'informazione emergente in reti di neuroni (biologici o artificiali) in interazione, partendo dai primi modelli per l'emissione di un segnale elettrico dal singolo neurone per giungere alle moderne architetture del Deep Learning.
Il corso è diviso in tre sezioni principali:
1) La prima sezione serve ad assicurarci di condividere una conoscenza scientifica di base (pre-requisito ovviamente necessario per muovere insieme i primi passi verso un'intelaiatura matematica formale dell'Intelligenza Artificiale). In estrema sintesi si suppliranno allo studente rudimenti di Meccanica Statistica e di Processi Stocastici rivisitando insieme alcuni argomenti fondamentali (adattati per questo corso) di pertinenza canonica di queste due discipline. Per poter affrontare questi concetti sarà necessario una veloce ripasso di elementi di Meccanica, Probabilità e Statistica che saranno gli incipit del corso stesso.
2) La seconda sezione introduce invece metodi e modelli matematici archetipali per definire sistemi semplici e sistemi complessi in meccanica statistica, fondamentali per una successiva analisi matematica del funzionamento delle reti neurali da una prospettiva di Intelligenza Artificiale Teorica. In questa sezione sviluppiamo in dettaglio i metodi matematici necessari alla descrizione ed alla comprensione della fenomenologia che questi sistemi mostrano (dalla rottura spontanea di ergodicità alla rottura di simmetria di replica di Parisi) dotandoci tanto metodi euristici, di uso canonico in approcci di Fis02 (e.g. “replica trick”, “message passage”, etc.), quanto metodi rigorosi, di largo impiego in Mat06 & Mat07 (e.g. “stochastic stability”, “cavity fields”, etc.).
3) L'ultima e preponderante sezione è invece completamente dedita alle reti neurali: dopo una succinta descrizione (sempre in termini matematici) dei meccanismi cardine inerenti il neurone e la propagazione d'informazione tra neuroni (alla stregua della loro implementazione elettronica), vedremo i limiti della compuazione a singolo neurone guardandola da diverse prospettive. A seguire costruiremo quindi “reti di neuroni” e ne studieremo le proprietà emergenti (cioè non immediatamente deducibili guardando al comportamento del singolo neurone), persistendo in una prospettiva di meccanica statistica. Nello specifico, proveremo a vedere come queste reti siano in grado di apprendere ed astrarre guardando esempi suppliti dal mondo esterno e come, successivamente, queste usino quanto appreso per rispondere opportunamente, qualora stimolate, al mondo esterno. Capiremo inoltre come queste a volte possano sbagliare, e perché.
La sezione si chiuderà lambendo la frontiera della ricerca attuale nel campo dell'Intelligenza Artificiale Teorica: idealmente ed auspicabilmente, alla fine del corso lo studente dovrebbe essere in grado di poter proseguire autonomamente nell'approfondimento di tale disciplina. In particolare questi dovrebbe poter essere in grado, interagendo in team un domani, di svolgere un ruolo complementare alle figure del computer-scientist e dell'ingegnere dell'informazione, interessandosi alle loro stesse tematiche, ma offrendo una diversa prospettiva, intrinsecamente più astratta e sintetica (a dire cioè dove la miriade di ricette di algoritmica che ogni giorno produciamo trovi una collocazione naturale e la gestione stessa del gruppo diventi ottimizzata) e per questo sempre più indispensabile nei gruppi di ricerca in AI.
Nelle ultime due lezioni, tempo permettendo, ci permetteremo di aprire una finestra sulla processazione d'informazione in altri sistemi biologici (un esempio di processazione intra-cellulare ed uno extra-cellulare) come approfondimento al corso.
Il corso è strutturato in maniera "simmetrica" in questo senso: in medias res tratteremo tutti i modelli (i.e. Curie-Weiss, Sherrington-Kirkpatrick, Hopfield, Boltzmann) sempre mediante le stesse tecniche (punto-sella/replica trick, interpolazione à la Guerra e approcci mediante PDE) di volta in volta opportunamente plasmate sul modello in studio: questo dovrebbe agevolare lo studente nel prendere dimistichezza con le tecniche stesse.
Lo scopo del corso è condividere con lo studente i concetti salienti e, parimenti, fornire allo studente gli strumenti cardine, affinché questi possa continuare autonomamente la sua crescita culturale nell'ambito dell'Intelligenza Artificiale da una prospettiva prettamente formale: il presente corso brama essere un corso teorico di “Intelligenza Artificiale”.
L'ambizione ultima è riuscire a porsi domande sui principi primi di funzionamento dell'AI (traendo ispirazione da analogie con la processazione d'informazione in reti biologiche) e, ove possibile rispondere, capire come impostare il problema nel suo complesso all'interno di una cornice matematica consona affinché la reti neurale non sia vista assolutamente come una "black box".
Lezioni frontali
L'esame consta nel superamento di una prova orale
Da concordare con il docente (assolutamente malleabile su questo punto)
0. Introduzione al corso.
-Finalità del corso e modi operandi, panoramica, struttura e simmetrie del corso.
1. Richiami di Meccanica, Probabilità, Meccanica Statistica e Processi Stocastici
-Legge dei Grandi Numeri e Teoremi del Limite Centrale.
-Problema del Time-Reversal con esempi di PDE note in Fisica (e.g. D'Alambert & Fourier).
-Il modello di Ehrenfest: analisi dell'entropia sia in statica che in dinamica e check di coerenza.
-L'approccio di Gibbs alla "massima entropia" ed il metodo della “distribuzione più probabile”.
-Equivalenza (e non) tra le entropie di Gibbs e Shannon.
-La temperatura come rumore veloce: dal random walk all'equazione del calore.
-Il processo di Markov: stazionarietà, catene irriducibili, distribuzioni invarianti.
-La master equation: Hamiltoniana come funzione di Lyapunov, teorema del Bilancio Dettagliato.
2. Sistemi semplici e sistemi complessi nel linguaggio della meccanica statistica
2.1: il Curie-Weiss, archetipo della semplicità
-Preludio: Modello di Ising: approssimazione di campo medio, transizioni di fase e rotture di simmetrie.
-Preludio: stati puri & fattorizzazione delle funzioni di correlazione, clustering.
-Teoremi di esistenza: lemma di Fakete, interpolazione convessa e sub-additività.
-Metodo del “punto di sella”e tecnica dell'interpolazione di Guerra
-Analisi mediante PDEs: Hamilton-Jacobi, Burgers, Riemann-Hopf ed il trasporto ottimo.
-Analisi medainte campo di cavità ed analisi di Fourier: equivalenza tra shock e rottura di simmetria.
2.2: lo Sherrington-Kirkpatrick, archetipo della complessità
-Preludio: misure quenched ed annealed, overlap e repliche.
-Preludio: ageing, rottura del time-translational-invariance e fenomenologia dei trap models.
-Preludio: Spettro di una catena di Markov semplice e frustrata: rilassamento dei modi normali.
-Teoremi di esistenza: lemma di Fakete, interpolazione convessa e super-additività.
-Metodo “replica trick”: soluzione replica simmetrica e crisi entropica.
-Analisi mediante “replica trick”: la rottura di simmetria di replica di Parisi.
-Analisi mediante PDEs: Hamilton-Jacobi, Burgers, Riemann-Hopf ed il trasporto ottimo.
-Analisi mediante “stochastic stability & cavity fields”: approccio à la Guerra.
3. Elementi di Intelligenza Artificiale: le reti neurali
3.1: Dinamica neurale
-Il quadro storico nel quale è nata l'AI: tanti contributi da diverse discipline.
-La dinamica neurale come processo stocastico di Markov.
-Uno sguardo al neurone biologico: la “cable theory” di Hodking-Huxley ed il neurone “integrate & fire” di Stein.
-Uno sguardo al neurone artificiale: il modello di McCulloch & Pitts, la meccanica statistica come logica rumorosa.
-Il Perceptrone di Rosenblatt e la critica di Minsky&Papert: verso le reti.
-La memoria associativa e le reti neuronali: la proposta di Hebb per l'apprendimento.
-Il modello di Mattis, trasformazioni di gauge locali e storage spontaneo di un bit di informazione.
-La rete neurale di Hopfield a basso carico con il metodo della log-constrained entropy.
-La rete neurale di Hopfield ad alto carico con il replica trick: teoria di Amit-Gutfreund-Sompolinsky.
-La rete neurale di Hopfield ad alto carico con la tecnica dell'interpolazione di Guerra.
-L'ottimizzatore NP di Hopfield-Tank (il cervello del commesso viaggiatore).
-Il simulated-annealing e le transizioni di fase in AI (K-SAT): l'importanza dei diagrammi di fase.
3.2: Dinamica sinaptica
-L'inverse-problem nel caso più semplice (un sola specie di Curie-Weiss & via log-likelihood).
-Il modulo del riflesso condizionato di Pavlov mediante dinamica stocastica à la Glauber.
-Reti neurali feed-forward: addestramento mediante "back-propagation".
-L'approccio di Jaynes alla "massima entropia": una prospettiva del tutto inferenziale (anche per le reti random).
-Apprendimento delle Boltzmann machines: scenario studente-allievo (supervised learning).
-Apprendimento delle Boltzmann machines: scenario non supervisionato (contrastive divergence).
-Equivalenza tra reti neurali di Hopfield e Boltzmann machines mediante una prospettiva Bayesiana.
-Reti neurali dense: l'emergere del trade-off tra risoluzione e capacità di immagazzinamento.
-Reti neurali che dormono e sognano: come distruggere gli stati di spin-glass per ottimizzare la memoria.
-Reti neurali gerarchiche e multitasking: robustezza ispirata alla biologia.
-Reti neurali profonde: il deep learning e le statistiche power-law (scale-free).
4.Elementi di intelligenza biologica: approfondimenti (facoltativo)
-Cinetica di reazione di Micaelis-Menten, Hill e Koshland.
-L'emoglobina e la RMN per la mappatura neurale.
-Computazione à la Monod (esempio dell'orecchio e perdita d'informazione per il setting ottimale).
-La percezione visiva: i tre colori primari e lo spettro quantizzato.
-Le reti linfocitarie e la risposta immunitaria adattativa: riconoscimento e memorizzazione.
[Amit] D.J. Amit, Modeling Brain Functions, Cambridge Press (1985).
[Barra] A. Barra, Dispense specifiche per questo corso (2019).
[Coolen] T. Coolen, R . Kuhn, P. Sollich, Theory of Neural Information Processing Systems, Oxford Press (2005).
[MacKay] D.J.C. MacKay, Information theory, Inference and Learning Algorithms, Cambridge Press (2018).
Semestre
Secondo Semestre (dal 27/02/2023 al 09/06/2023)
Tipo esame
Obbligatorio
Valutazione
Orale - Voto Finale
Orario dell'insegnamento
https://easyroom.unisalento.it/Orario