import numpy as np
import pandas as pd
import scipy.stats as sps
import matplotlib.pyplot as plt

df = pd.read_csv("Oldfaithful.csv")

df.head(10)

df.plot.scatter(x="eruptions", y="waiting", alpha=0.2)

<AxesSubplot:xlabel='eruptions', ylabel='waiting'>

plt.hist(df.eruptions, bins=40, alpha=0.3, density=True);
plt.xlabel("temps d'éruption");

def EM_gm(x, pi, mu1, mu2, sigma1, sigma2, err=1e-6, n_iter_max=100):

    n = len(x)
    ll_old = 0.
    ll_new = 0.

    
    # initialisation 
    r1 = np.zeros(n)
    r2 = np.zeros(n)
    
    pi_tmp, mu1_tmp, sigma1_tmp, mu2_tmp, sigma2_tmp = pi, mu1, sigma1, mu2, sigma2
    
    for i in range(n_iter_max):
        
        # E-step 
        # calcul des probas d'appratenance de chaque point
        # à chaque Gaussiene
        
        y = pi * sps.norm(mu1_tmp, sigma1_tmp).pdf(x)
        r1 = y / ( y + (1 - pi) * sps.norm(mu2_tmp, sigma2_tmp).pdf(x) )
        r2 = 1. - r1 

        # M-step
        # mise à jour des paramètres
        
        n1 = r1.sum()
        n2 = n - n1
        
        pi_tmp = n1 / n

        mu1_tmp = np.dot(r1, x) / n1
        mu2_tmp = np.dot(r2, x) / n2

        sigma1_tmp = np.sqrt( np.dot(r1, (x - mu1_tmp)**2 ) / n1 )
        sigma2_tmp = np.sqrt( np.dot(r2, (x - mu2_tmp)**2 ) / n2 )
                    
        # mise à jour de la log-vraisemblance
        
        ll_new = np.sum( np.log( pi_tmp * sps.norm(mu1_tmp, sigma1_tmp).pdf(x) + 
                        (1. - pi_tmp) * sps.norm(mu2_tmp, sigma2_tmp).pdf(x) ) )
        
        if np.abs(ll_new - ll_old) < err:
            break
            
        ll_old = ll_new
        
    else:
            
        print("Attention, le nombre d'itération maximum a été atteint.")
   
    return pi_tmp, mu1_tmp, sigma1_tmp, mu2_tmp, sigma2_tmp

pi, mu1, sigma1, mu2, sigma2 = EM_gm(df.eruptions, 0.5, 3, 3.5, 1., 1.)

pi, mu1, sigma1, mu2, sigma2

(0.3525114684863784,
 2.0283755957492695,
 0.25104025419862425,
 4.2823267029208445,
 0.42355791136439475)

xmin = df.eruptions.min()
xmax = df.eruptions.max()
x_plot = np.linspace(xmin, xmax, 100)
        
def gm_density(pi, mu1, sigma1, mu2, sigma2, x):
    return pi * sps.norm(mu1, sigma1).pdf(x) + (1. - pi) * sps.norm(mu2, sigma2).pdf(x)

plt.hist(df.eruptions, bins=40, alpha=0.3, density=True, label="data")
plt.plot(x_plot, gm_density(pi, mu1, sigma1, mu2, sigma2, x_plot), label="estimation")
plt.xlabel("temps d'éruption")
plt.legend();

def agregation(x, pi, mu1, mu2, sigma1, sigma2):
    
    n = len(x)
    r = np.zeros(n)
    
    # calcul des proba d'appartenance à chaque Gaussienne
    y = pi * sps.norm(mu1, sigma1).pdf(x)
    r = y / ( y + (1 - pi) * sps.norm(mu2, sigma2).pdf(x) )
    
    classif = (r > 1/2) 
    
    return classif

classif = agregation(df.eruptions, pi, mu1, mu2, sigma1, sigma2)

plt.scatter(df.eruptions[classif], df.waiting[classif], alpha=0.3, label="short erupt")
plt.scatter(df.eruptions[np.invert(classif)], df.waiting[np.invert(classif)], alpha=0.3, label="long erupt")
plt.xlabel("eruptions")
plt.ylabel("waiting")
plt.legend();

def Estim_boot(x, pi, mu1, mu2, sigma1, sigma2, B):
    
    n = len(x)
    
    pi_boot = np.zeros(B)
    mu1_boot = np.zeros(B)
    sigma1_boot = np.zeros(B)
    mu2_boot = np.zeros(B)
    sigma2_boot = np.zeros(B)
    
    U = sps.binom(1, pi).rvs((B, n))
    m = U.sum(axis=1)
    
    for b in range(B):
        
        Y = np.concatenate([sps.norm(mu1, sigma1).rvs(m[b]), sps.norm(mu2, sigma2).rvs(n- m[b])])
        
        pi_tmp, mu1_tmp, sigma1_tmp, mu2_tmp, sigma2_tmp = EM_gm(Y, pi, mu1, mu2, sigma1, sigma2)
        
        pi_boot[b] = pi_tmp
        mu1_boot[b] = mu1_tmp
        sigma1_boot[b] = sigma1_tmp
        mu2_boot[b] = mu2_tmp
        sigma2_boot[b] = sigma2_tmp
 
    return pi_boot, mu1_boot, sigma1_boot, mu2_boot, sigma2_boot

B = 2000
pi_boot, mu1_boot, sigma1_boot, mu2_boot, sigma2_boot = Estim_boot(df.eruptions, pi, mu1, mu2, sigma1, sigma2, B)

plt.hist(pi_boot, bins=50, density=True, alpha=0.3);

plt.hist(mu1_boot, bins=50, density=True, alpha=0.3);

plt.hist(mu2_boot, bins=50, density=True, alpha=0.3);

plt.hist(sigma1_boot, bins=50, density=True, alpha=0.3);

plt.hist(sigma2_boot, bins=50, density=True, alpha=0.3);

plt.hist(df.eruptions, bins=40, alpha=0.3, density=True, label="data")

for b in range(B):
    plt.plot(x_plot, 
    gm_density(pi_boot[b], mu1_boot[b], sigma1_boot[b], mu2_boot[b], sigma2_boot[b], x_plot),
    alpha=0.1, color="orange"
    )

plt.plot(x_plot, gm_density(pi, mu1, sigma1, mu2, sigma2, x_plot), label="estimation")

plt.xlabel("temps d'éruption")
plt.legend();

def EM_gm2(x, pi, mu1, mu2, sigma1, sigma2, err=1e-6, n_iter_max=100):

    n = len(x)
    ll_old = 0.
    ll_new = 0.
    
    # listes pour enregistrer les valeurs succéssives
    # sert pour les illustrations
    pi_rec = [pi]
    mu1_rec = [mu1]
    mu2_rec = [mu2]
    sigma1_rec = [sigma1]
    sigma2_rec = [sigma2]
    ll_rec = []
    
    # initialisation 
    r1 = np.zeros(n)
    r2 = np.zeros(n)
    
    pi_tmp, mu1_tmp, sigma1_tmp, mu2_tmp, sigma2_tmp = pi, mu1, sigma1, mu2, sigma2
    
    for i in range(n_iter_max):
        
        # E-step 
        # calcul des probas d'appratenance de chaque point
        # à chaque Gaussiene
        
        y = pi * sps.norm(mu1_tmp, sigma1_tmp).pdf(x)
        r1 = y / ( y + (1 - pi) * sps.norm(mu2_tmp, sigma2_tmp).pdf(x) )
        r2 = 1. - r1 

        # M-step
        # mise à jour des paramètres
        
        n1 = r1.sum()
        n2 = n - n1
        
        pi_tmp = n1 / n

        mu1_tmp = np.dot(r1, x) / n1
        mu2_tmp = np.dot(r2, x) / n2

        sigma1_tmp = np.sqrt( np.dot(r1, (x - mu1_tmp)**2 ) / n1 )
        sigma2_tmp = np.sqrt( np.dot(r2, (x - mu2_tmp)**2 ) / n2 )
            
        # Enregistrement des mises à jours
        
        pi_rec.append(pi_tmp)
        mu1_rec.append(mu1_tmp)
        mu2_rec.append(mu2_tmp)
        sigma1_rec.append(sigma1_tmp)
        sigma2_rec.append(sigma2_tmp)
            
        # mise à jour de la log-vraisemblance
        
        ll_new = np.sum( np.log( pi_tmp * sps.norm(mu1_tmp, sigma1_tmp).pdf(x) + 
                        (1. - pi_tmp) * sps.norm(mu2_tmp, sigma2_tmp).pdf(x) ) )
        
        # Enregistrement des mises à jours log vraiss
        ll_rec.append(ll_new)
        
        if np.abs(ll_new - ll_old) < err:
            break
            
        ll_old = ll_new
        
    else:
            
        print("Attention, le nombre d'itération maximum a été atteint.")
   
    return (pi_tmp, mu1_tmp, sigma1_tmp, mu2_tmp, sigma2_tmp, 
            pi_rec, mu1_rec, sigma1_rec, mu2_rec, sigma2_rec, ll_rec)

(pi, mu1, sigma1, mu2, sigma2, 
 pi_rec, mu1_rec, sigma1_rec, mu2_rec, sigma2_rec, ll_rec) = EM_gm2(df.eruptions.to_numpy(), 0.5, 3, 3.5, 1., 1.)

plt.hist(df.eruptions, bins=40, alpha=0.3, density=True, label="data")

m = len(pi_rec)
ind = [0, 5, 10, 15]

for l in ind:
    plt.plot(x_plot, gm_density(pi_rec[l], mu1_rec[l], sigma1_rec[l], mu2_rec[l], sigma2_rec[l], x_plot), 
             alpha=0.5, label="itération %s" % l)
    
plt.plot(x_plot, gm_density(pi, mu1, sigma1, mu2, sigma2, x_plot), alpha=0.5, label="estimation")
plt.xlabel("temps d'éruption")
plt.legend();

	eruptions	waiting
0	3.600	79
1	1.800	54
2	3.333	74
3	2.283	62
4	4.533	85
5	2.883	55
6	4.700	88
7	3.600	85
8	1.950	51
9	4.350	85

TP2 Expectation-Maximization¶

Principe de l'algorithme:¶

Question 2: A partir des sorties de la fonction `EM_gm` écrire une fonction qui agrège les différents points dans les deux catégories. On pourra utiliser les paramètres $r_1$ et $r_2$ pour faire la classification des points. On pourra illustrer les deux groupes graphiquement.¶

Question 4: On pourra modifier la fonction `EM_gm` pour enregistrer les différentes valeurs des paramètres $\pi$, $\mu_1$, $\sigma_1$, $\mu_2$ et $\sigma_2$ durant les différentes itérations. On illustrera graphiquement l'évolution le l'adequation du modèle avec les données¶

TP2 Expectation-Maximization¶

Principe de l'algorithme:¶

Question 2: A partir des sorties de la fonction EM_gm écrire une fonction qui agrège les différents points dans les deux catégories. On pourra utiliser les paramètres $r_1$ et $r_2$ pour faire la classification des points. On pourra illustrer les deux groupes graphiquement.¶

Question 4: On pourra modifier la fonction EM_gm pour enregistrer les différentes valeurs des paramètres $\pi$, $\mu_1$, $\sigma_1$, $\mu_2$ et $\sigma_2$ durant les différentes itérations. On illustrera graphiquement l'évolution le l'adequation du modèle avec les données¶

Question 2: A partir des sorties de la fonction `EM_gm` écrire une fonction qui agrège les différents points dans les deux catégories. On pourra utiliser les paramètres $r_1$ et $r_2$ pour faire la classification des points. On pourra illustrer les deux groupes graphiquement.¶

Question 4: On pourra modifier la fonction `EM_gm` pour enregistrer les différentes valeurs des paramètres $\pi$, $\mu_1$, $\sigma_1$, $\mu_2$ et $\sigma_2$ durant les différentes itérations. On illustrera graphiquement l'évolution le l'adequation du modèle avec les données¶