ISTITUZIONI DI PROBABILITÀ 2021/22 - DIARIO DELLE LEZIONI E GUIDA ALLO STUDIO

Processi di diramazione
La presentazione dei processi di diramazione (branching processes) che abbiamo visto a lezione è ispirata a quella con cui inizia il libro di Williams. Discussioni simili dei processi di diramazione si trovano nel capitolo 3 del libro di Klenke e nel capitolo 5 del libro di Grimmett. Per chi vuole saperne di più il riferimento classico è Athreya-Ney Branching Processes Springer 1972.
Risorse online:
https://web.ma.utexas.edu/users/gordanz/notes/lecture7.pdf
Branching Processes: Their Role in Epidemiology
Simulazione:
http://www.jonathanjordan.staff.shef.ac.uk/pas375/branching.html

Teoria della misura
La
teoria della misura è uno strumento essenziale per lo studio rigoroso del calcolo delle probabilità.
1) leggere 'The need for measure theory" all'inizio del libro di Rosenthal (5 pagine);
2) rivedere la parte di teoria della misura
delle dispense del corso di Istituzioni di Analisi Superiore o un qualunque altro testo che vi è familare;
3) leggere i paragrafi 1.1-1.4 del libro di Klenke; si tratta di contenuti che vi sono in gran parte già noti.
4) la costruzione dello spazio per un numero infinito di lanci di moneta via teorema do estensione si trova nel paragrafo 2.6 di Rosenthal oppure su queste disoense.

Molti tra i testi consigliati hanno un capitolo introduttivo di teoria della misura.
Il blog di Terry Tao è sempre una lettura stimolante. Trovate qui i suoi post di teoria della misura.
Gli stessi contenuti esposti in maniera più sistematica e sempre molto chiara si tovano nel suo libro.
Per chi preferisce contenuti video ci sono le eccellenti lezioni di Claudio Landim


Due ingredienti fondamentali: variabili aleatorie e indipendenza
La storia moderna del calcolo delle probabilità inizia con l'utilizzo sistematico del concetto di variabile aleatoria.
1) leggere i paragrafi 2.1-2.5 del libro di Grimmett per un ripasso sulle variabili aleatorie.
2) leggere il paragrafo 1.5 del libro di Klenke.
Un risultato importante da conoscere è il teorema delle classi monotone per funzioni (si trova anche su Williams 3.14)

L'assiomatizzazione del calcolo delle probabilità da parte di Kolmogorov permette, fra le altre cose, di formalizzare l'idea
di indipendenza fra eventi e fra variabili aleatorie.
1) leggere
i paragrafi 2.1-2.3 del libro di Klenke.
Un risultato fondamentale è il lemma di Borel-Cantelli che useremo molto spesso. Anche importante conoscere la legge 0-1 di Kolmogorov.


Percolazione
Una breve introduzione alla percolazione si trova nel paragrafo 2.4 del libro di Klenke.
Chi vuole saperne di più può consultare Percolation and Disordered Systems di G. Grimmett.
La costruzione del reticolo duale in d=2 è tratta da A Natural introduction to Probability Theory di Ronald Meester.
Qui una simulazione e qui il video visto in classe.


Intregrazione, valore atteso
1) per un ripasso dei concetti elementari e qualche esempio, leggere i paragrafi 3.3 e 4.3 del libro di Grimmett;
2) rivedere l'integrazione
sulle dispense del corso di Istituzioni di Analisi Superiore o altro testo di analisi con cui avere familiarità;
    in particolare rivedere lemma di Fatou e teoremi di passaggio al limite sotto il segno di integrale su spazi di misura generici;
3) leggere il capitolo 4 del libro di Klenke e in alternativa o in aggiunta
il capitolo 4 del libro di Rosenthal;
    si tratta di contenuti che vi sono in gran parte già noti.
4) leggere il paragrafo 5.1 del libro di Klenke.


Integrale di Stieltjes
Per una trattazione dell'integrale di Stieltjes potete consultare il classico Kolmogorov-Fomin "Elementi di Teoria delle Funzioni e di Analisi Funzionale".


Disuglianze
Molte delle disuguaglianze vengono introdotte quando sono necessarie per la dimostrazione di un teorema, ma può essere utile rivederle assieme.
Nel capitolo 3 del libro di Gut sono presentate assieme le disuguaglianze più importanti. Un'utilissima raccolta di un centinaio di soli enunciati
si trova qui. Qui potete invece trovare alcune delle disuguaglianze più importanti con dimostrazione.


Legge dei grandi numeri
Enunciata per la prima volta da Cardano e nel caso dei lanci di moneta dimostrata da Bernolulli, la legge dei grandi numeri
è uno di risultati centrali del calcolo delle probabilità, forse il più importante. Esistono numerose formulazioni della legge dei
grandi numeri di complessità crescente man mano che si indeboliscono le ipotesi e si rafforza la tesi.
1) per i lanci di moneta una dimostrazione moderna, ma completamente elementare che non utilizza il concetto di variabile aleatoria o
    di valore atteso si trova nel paragrafo 2.2 del libro di Grimmett. È istruttivo leggerla sia per confrontarla con le dimostrazioni che
    vedrete inseguito, sia per imparare qualche "trucco del mestiere". Qui e qui trovate delle simulazioni interattive.
2) per una una panoramica leggere
The weak and strong law of large numbers sul blog di Tao.
3) una trattazione abbastanza esaustiva si trova nei paragrafi 5.2 e 5.3 (prima parte)
del libro di Klenke. Consigliata anche la trattazione
    nel capitolo 2 del libro di Durrett. Alcune dimostrazioni alternative, intuitive e utili per apprendere tecniche che si usano spesso, sono
    nel capitolo 5 del libro di Chung, in particolare nei paragrafi 5.2 e 5.4. Una trattazione sintetica, ma senza sconti è ai paragrafi 3.2 e 3.3
    del libro di Varadhan.
4) Tra le applicazioni raccomando di vedere il Teorema di Glivenko-Cantelli (teorema 5.23 sul libro di Klenke) e una dimostrazione probabilistica del
     teorema di approssimazione di Weirstrass
(esempio 5.15 sul libro di Klenke, ma preferisco la presentazione come teorema 5.5.4 del libro di Chung).
     A chi è interessato alla teoria dell'informazione consiglio di leggere la seconda parte del paragrafo 5.3 del libro di Klenke.
5) La trattazione dei teoremi generali visti in classe segue da vicino quella nel libro di Resnick.


Ancora Terry Tao sulla legge forte.


Attesa condizionata
Nella probabilità elementare si inizia calcolando la probabilità condizionata nel modello classico (eventi tutti equiprobabili) e si assume come definizione nel caso generale sotto l'ipotesi che la probabilità dell'evento condizionante sia non nulla. Una volta definita la probabilità condizionata si passa a definire l'attesa condizionata.
Rimane aperto il problema di condizionare rispetto a eventi di probabilità 0. Tale problema può essere superato scegliendo le opportune definizioni nel contesto della probabilità assolutamente continua (p.e. Grimmett 4.6). Per una trattazione generale si parte invece da una definizione assiomatica dell'attesa condizionata.
Iniziare studiando i paragrafi 13.1-13.3 di Rosenthal. Consiglio di studiare sia il capitolo 8 di Klenke che il capitolo 9 di Williams; malgrado ci sia molta sovrapposizione, i punti di vista sono in parte diversi (ripassare il teorema di Radon-Nikodym!).


Convergenza
Possiamo pensare alla legge dei grandi numeri nele sue varie versioni come esempio di convergenza di successioni di variabili aleatorie a una costante.
La legge debole fornisce il primo esempio di convergenza in probabilità e quella forte di convergenza quasi certa. Il limite però non deve essere
necessariamente una costante. Altre nozioni di convergenza sono importanti, innanzitutto negli spazi
Lp

1) Studiare i paragrafi 7.1 e 7.2 del libro di Grimmett.
2) Per una panoramica dei problemi di convergenza può essere utile una lettura veloce del resto del suddetto capitolo.
2) Studiare i paragrafi 6.1 (convergenza in probabilità e quasi certa) e 6.2 (integrabilità uniforme) del libro di Klenke (paragrafo 6.3 opzionale).
3) È consigliabile avere chiara la relazione fra i vari modi di convergenza. Una discussione di insieme si trova per esempio nel blog di T. Tao.
    Farsi uno schema può essere utile; qui un esempio.
4) Anche l'articolo di Wikipedia fornisce un buon riassunto.
5) Una discussione alternativa si trova nel cap. 4 del libro di Chung.

Un ottimo riassunto.

Martingale
L'idea di martingala nasce nel XVIII secolo dai tentativi di sviluppare sistemi di puntata nei giochi d'azzardo. Se un sistema non funziona, possiamo sempre inventarne uno più ingegnoso, giusto? Purtroppo no. Uno degli scopi di questa parte del corso è dimostrare un teorema generale di non esistenza: è impossibile trasformare un gioco favorevole al banco in uno favorevole al giocatore.
Le cose da sapere:

Il minimo indispensabile (forse un po' meno del minimo...) si trova nel capitolo 14 di Rosenthal. Per un percorso più completo, Grimmett 7.7, 7.8 e poi 12.1-12.6 fornisce una panoramica delle idee e dei risultati principali. L'esposizione di Klenke mira, come sempre, alla generalità. Del capitolo 9 studiare i paragrafi 9.1 e 9.2, leggere 9.3 e, per chi è interessato alla finanza, 9.4. Studiare poi i capitoli 10 e 11. Un'alternativa è studiare i capitoli 10, 11, 12 e 14 di Williams. La dimostrazione di Garsia si trova nel paragrafo 10.10 di Gut.

Per chi vuole approfondire le martingale a tempo discreto consiglio Discrete-Parameter Martingales di J. Neveu.

Cosa intendono i giocatori d'azzardo per "martingala":
https://napalmbet.com/martingale-betting-system.html#The_Basics_of_Martingale_Strategy
https://bookmakers.net/betting-tools/martingale-calculator/
https://www.oddscoach.com/martingale-calculator/
https://www.rouletteonline.it/

Un'introduzione rigorosa alle martingale con in mente il gioco d'azzardo dal libro The Doctrine of Chances: Probabilistic Aspects of Gambling di S. Ethier.

Potete leggere qui le applicazioni alla concentrazione al problema del bin-packing e del commesso viaggiatore nel quadrato. Le stesse cose con anche altri esempi sono qui.


Convergenza debole
Per il minimo indispensabile è sufficiente studiare il capitolo 10 del libro di Rosenthal. Per una trattazione più completa vedere i capitoli 13.2 e 13.3
del libro di Klenke. Per chi desidera approfondire l'argomento il riferimento obbligato è Convergence of Probability Measures di Billingsley.
Per chi li ha incontrati può essere utile rivedere i teoremi di Ascoli-Arzelà e di Banach-Alaoglu.
Da sapere:
1) definizione di convergenza debole e di convergenza in distribuzione;
2) teorema Portmanteau (10.1.1 in Rosenthal, 13.6 in Klenke);
3) definizione di trattenutezza (thightness);
4) teorema di Prohorov;
5) teorema di Helly (noto anche come principio di selezione di Helly).



Disuguaglianze di concentrazione
Due buoni riferimenti sono il cap. 2 del libro Complex Graphs and Networks e l'articolo di Boucheron et al.
Una trattazione molto ampia si trova nel libro
di Boucheron, Lugosi e Massart.


Funzioni caratteristiche
Rivedere le trasformate le trasformate di Fourier delle dispense del corso di Istituzioni di Analisi Superiore.
Le nozioni che è indispensabile conoscere sono:
1) proprietà elementari;
2) formula di inversione;
3) teorema di continuità di Levy.

Per una tratta
zione veloce studiare capitolo 16 e 18.1 di Williams oppure il paragrafo 11.1 del libro di Rosenthal e 2.1 di Varadhan.
La trattazione di Klenke è più approfondita; vedere paragrafi 15.2-15.4 (nel paragrafo 15.1 si trovano nozione necessarie di analisi).
Per esempi e nozioni collegate vedere i paragrafi 5.7 e 5.8 di Grimmett.


Una panoramica su convergenza debole e funzioni caratteristiche: il minicorso di Armand Makowski.


Teorema del limite centrale
La prima versione del teorema limite centrale si deve a De Moivre per l'approssimazione di probabilità binomiali. La dimostrazione di De Moivre, che si basa
su stime esplicite e un uso accorto della formula di Stirling, è ancora quella presente su molti libri moderni, per esempio "The Theory of Probability" di Gnedenko.
La scoperta di Laplace del 1810, secondo la quale l’effetto complessivo di un gran numero di variabili casuali indipendenti porta generalmente a probabilità
che possono, almeno approssimativamente, essere calcolate secondo la distribuzione normale, ha notevolmente ampliato le possibilità numeriche della teoria
della probabilità, in particolare nella discussione sui fenomeni di collettivi.
Scrive Gnedenko:
"The natural question arises: How closely tied up is it related with the special choice of summands? Will it not hold in the case of weaker restrictions imposed on the distribution functions of the summands? The statement of this problem and also its solution belong in the main to P. L. Chebyshev and his pupils A. A. Markov and A. M. Lyapunov. Their investigations have shown that one should impose on the summands only the most general restrictions, the meaning of which depends on the fact that the separate summands should exert an insignificant effect on the sum. In the next section we will give a precise statement of this condition. The reasons why these results are so vastly important in applications lie in the very essence of mass-scale phenomena, the study of the regularities of which is, as we have already had occasion to say, the actual subject of the theory of probability. One of the most important schemes used to exploit the results of probability theory in the natural sciences and technology consists in the following. It is assumed that a process occurs under the influence of a large number of independently operating random factors, each of which only to a negligible extent modifies the course of the phenomenon or process. The investigator who is interested in the process as a whole, and not the operation of separate factors, observes only the overall operation of these factors. We illustrate with two typical examples.
Example 1.
Let a measurement be made. The result will unavoidably be influenced by a large number of factors that generate errors in the measurement. These will include errors due to the state of the measuring instrument, which might vary in gross fashion under the effect of various atmospheric or mechanical factors. There will also be human errors of the observer caused by peculiarities of vision or hearing and also those that might be altered slightly due to the psychic or physical state of the observer, and so forth. Each of these factors would generate a negligible error. But the measurement is affected at once by all these errors, the result being an "overall error". In other words, the actually observed error of measurement will be a random variable- the sum of an enormous number of negligibly small and independent random variables. And though these quantities are unknown, as also are their distribution functions, their effect on the results of the measurements is noticeable and for this reason must be the subject of study.

Example 2.
In many industries large batches of identical articles are produced by the mass-production process. Let us consider some numerical characteristic of the product we are interested in. Insofar as the article conforms to certain technical standards, there is a certain standard value of the characteristic we have chosen. Actually, however, there is always observed a certain deviation from this standard value. In a properly organized production process, such deviations can only be caused by random factors, each of which produces only an unnoticeable effect. The overall action, however, generates a noticeable deviation from the norm."

Per lo studio del teorema limite centrale è consigliabile procedere per gradi, iniziando dalla dimostrazione per somme di variabili i.i.d. con l'approccio delle funzioni caratteristiche. Si trova su tutti i libri; per esempio Klenke teorema 15.37, Rosenthal teoerma 11.2.2, Williams teorema 18.4. La questione centrale è però comprendere
intuitivamente e poi formalizzare la condizione di influenza trascurabile del singolo addendo. La mia esposizione preferita è quella dei paragrafi 7.1 e 7.2 di Chung;
in alternativa gli stessi risultati sono esposti nel paragrafo 15.5 di Klenke.
Per un'eccellente panoramica leggere
the central limit theorem di Tao.
Chi è interessato alla storia del
teorema limite centrale può consultare A History of the Central Limit Theorem di Hans Fischer.

Risultati collegati:
per la versione in più dimensioni studiare il paragrafo 15.6 di Klenke;
per il
teorema limite centrale locale (convergenza della densità) vedere il paragrafo 5.10 (teorema 6) di Grimmett;
per la generalizzazione a variabili non indipendenti vedere il paragrafo 7.3 di Chung;
del teorema di Berry-Esseen (velocità di convergenza) è utile conoscere l'enunciato. La dimostrazione è piuttosto tecnica e gran parte dei testi la omettono. Gli interessati possono trovarla nel paragrafo 3.4.4 di Durrett.

Il quinconce di Galton offre una illustrazione meccanica del teorema limite centrale. Vale la pena di perdere qualche minuto a giocarci.

Qui, qui e qui trovate dei simulatori per il teorema limite centrale.

Per farsi un'idea di alcuni sviluppi che non abbiamo tempo di esplorare in dettaglio: Variants of the central limit theorem.


Metodo di Chen-Stein
Una discussione elementare si trova nel cap. 2 del libro di Ross e Pekoz. Per una presentazione a livello più avanzato  raccomando A short survey of Stein's method di S. Chatterjee. Di livello intermedio fra le due c'è The Chen-Stein Method for Convergence of Distributions di C. Goldschmidt. Una trattazione molto completa per quanto riguarda l'approssimazione normale si trova in Normal Approximation by Stein's Method di Chen, Goldstein e Shao.

Per chi vuole saperne di più dei metodi di coupling consiglio Probability Theory: The Coupling Method di F. den Hollander. Le slide di W. Kendall sono ricche di spunti.


Distribuzione gaussiana multivariata

La presentazione fatta in classe è tratta dal cap. 5 di A.   Gut, An Intermediate course in Probabilty, Springer Texts in Statistics.

An Intermediate Course in Probability (Springer Texts in Statistics)