import numpy as np
import scipy.stats as sps 
import matplotlib.pyplot as plt
from IPython.core.pylabtools import figsize

n = 50
mu = 0.
sig = np.sqrt(2)
alpha = 0.05

X = sps.norm(mu, sig).rvs(n)

mu_hat = X.mean()
mu_hat

0.2701274214575453

sig_hat = X.std()
sig_hat

1.5049667537317222

q = sps.t(n-1).ppf(1-alpha/2) #la méthode ppf correspond au pourcentile/quantile

IC1_mu = mu_hat - q * sig_hat / np.sqrt(n)
IC2_mu = mu_hat + q * sig_hat / np.sqrt(n)

print("les bornes de l'IC sont %s et %s" % (IC1_mu, IC2_mu))

les bornes de l'IC sont -0.15757939757862666 et 0.6978342404937172

def plot_IC(mu, sig, n, alpha, M):
    
    """représente graphiquement M IC de niveaux 1- alpha
    pour mu à partir d'un échantillon de taille n"""
    
    q = sps.t(n-1).ppf(1-alpha/2)
    
    for j in range(M):
        
        X = sps.norm(mu, sig).rvs(n)
        mu_hat = X.mean()
        sig_hat = X.std()
        IC1 = mu_hat - q * sig_hat / np.sqrt(n)
        IC2 = mu_hat + q * sig_hat / np.sqrt(n)
        
        plt.vlines(j, IC1, IC2)
        plt.hlines(mu, -1, M)

M = 40
plot_IC(mu, sig, n, alpha, M)
figsize(2,5)

q1 = sps.chi2(n-1).ppf(alpha/2)
q2 = sps.chi2(n-1).ppf(1-alpha/2)

IC1_sig2 = (n - 1) * sig_hat**2 / q2 
IC2_sig2 = (n - 1) * sig_hat**2 / q1

print("les bornes de l'IC sont %s et %s" % (IC1_sig2, IC2_sig2))

les bornes de l'IC sont 1.5804259057125298 et 3.5170849427966315

def dist_boot(data, B):
    
    """génèe un échantillon bootstrap pour mu et sigma de taille B"""
    
    mu_hat = data.mean()
    sig_hat = data.std()
    
    n = len(data)
    
    X = sps.norm(mu_hat, sig_hat).rvs((B, n))
    
    mu_boot = X.mean(axis=1)
    sig_boot = X.std(axis=1)
    
    return mu_boot, sig_boot

B = 20000

mu_boot, sig_boot = dist_boot(X, B)

mu_tilde = np.sort(mu_boot)
sig2_tilde = np.sort(sig_boot**2)

figsize(9, 9)

plt.subplot(221)

plt.hist(mu_boot, bins=80, density=True, alpha=0.2, label="échantillon");
plt.vlines(mu, 0, 2.5, label="vraie valeur")
plt.title("histogramme échantillon bootstrap pour $\mu$")
plt.legend()

plt.subplot(222)

y = np.linspace(1/B, 1, B)
plt.plot(mu_tilde, y)
plt.title("fonction de répartition bootstrap pour $\mu$")

plt.subplot(223)

plt.hist(sig_boot**2, bins=80, density=True, alpha=0.2, label="échantillon");
plt.vlines(sig**2, 0, 1, label="vraie valeur")
plt.title("histogramme échantillon bootstrap pour $\sigma^2$")
plt.legend()

plt.subplot(224)

y = np.linspace(1/B, 1, B)
plt.plot(sig2_tilde, y)
plt.title("fonction de répartition bootstrap pour $\sigma^2$");

IC1_mu_boot = mu_tilde[int(np.floor(alpha*B/2))]
IC2_mu_boot = mu_tilde[int(np.floor((1-alpha/2)*B))]

print("les bornes de l'IC pour mu sont %s et %s" % (IC1_mu_boot, IC2_mu_boot))
print("alors que celles calculées explicitement sont %s et %s" % (IC1_mu, IC2_mu))

les bornes de l'IC pour mu sont -0.15195829911475456 et 0.6909207740983553
alors que celles calculées explicitement sont -0.15757939757862666 et 0.6978342404937172

IC1_sig2_boot = sig2_tilde[int(np.floor(alpha*B/2))]
IC2_sig2_boot = sig2_tilde[int(np.floor((1-alpha/2)*B))]

print("les bornes de l'IC pour sigma^2 sont %s et %s" % (IC1_sig2_boot, IC2_sig2_boot))
print("alors que celles calculées explicitement sont %s et %s" % (IC1_sig2, IC2_sig2))

les bornes de l'IC pour sigma^2 sont 1.4275222325481107 et 3.189112308195373
alors que celles calculées explicitement sont 1.5804259057125298 et 3.5170849427966315

mu_boot_hat = mu_boot.mean()

biais_mu_boot = mu_boot_hat - mu_hat
var_mu_boot = np.mean( (mu_boot - mu_boot_hat)**2 )

print("le biais Bootstrap pour mu est %s" % biais_mu_boot)
print("la variance Bootstrap pour mu est %s" % var_mu_boot)
print("l'écart type pour mu est %s" % np.sqrt(var_mu_boot))

le biais Bootstrap pour mu est 0.00031702053617094217
la variance Bootstrap pour mu est 0.04543845472729605
l'écart type pour mu est 0.21316297691507324

sig2_boot_hat = np.mean(sig_boot**2)

biais_sig2_boot = sig2_boot_hat - X.var()
var_var_boot = np.mean( (sig_boot**2 - sig2_boot_hat)**2 )

print("le biais Bootstrap pour sigma^2 est %s" % biais_sig2_boot)
print("la variance Bootstrap pour sigma^2 est %s" % var_var_boot)
print("l'écart type pour sigma^2 est %s" % np.sqrt(var_var_boot))

le biais Bootstrap pour sigma^2 est -0.04075432194266604
la variance Bootstrap pour sigma^2 est 0.20346919464805688
l'écart type pour sigma^2 est 0.45107559748678144

n = 2000
k = 1.5
beta = 2

X = sps.gamma(k, scale=beta).rvs(n)

sps.gamma.fit(X, floc=0)

(1.5158713238266452, 0, 1.997800186454287)

k_hat = X.mean()**2 / X.var()
k_hat

1.5655993534860209

beta_hat = X.var() / X.mean()
beta_hat

1.934344190062684

def dist_boot_gamma(data, B):
    
    k_hat = data.mean()**2 / data.var()
    beta_hat = data.var() / data.mean()

    n = len(data)
    
    X = sps.gamma(k_hat, scale=beta_hat).rvs((B, n))
    
    k_boot = X.mean(axis=1)**2 / X.var(axis=1)
    beta_boot = X.var(axis=1) / X.mean(axis=1)
    
    return k_boot, beta_boot

B = 20000
k_boot, beta_boot = dist_boot_gamma(X, B)
k_tilde, beta_tilde = np.sort(k_boot), np.sort(beta_boot)

def dist_boot_gamma_MLE(data, B):
    
    k_hat = data.mean()**2 / data.var()
    beta_hat = data.var() / data.mean()

    n = len(data)
    k_boot, beta_boot = np.zeros(B), np.zeros(B)
    
    X = sps.gamma(k_hat, scale=beta_hat).rvs((B, n))
    
    for j in range(B):
        k_boot[j], _, beta_boot[j] = sps.gamma.fit(X[j,:], floc=0)
    
    return k_boot, beta_boot

k_boot_MLE, beta_boot_MLE = dist_boot_gamma_MLE(X, B)
k_tilde_MLE, beta_tilde_MLE = np.sort(k_boot_MLE), np.sort(beta_boot_MLE)

alpha = 0.05

IC1_k = k_tilde[int(np.floor(alpha * B/2))]
IC2_k = k_tilde[int(np.floor((1-alpha/2) * B))]

IC1_beta = beta_tilde[int(np.floor(alpha * B/2))]
IC2_beta = beta_tilde[int(np.floor((1-alpha/2) * B))]

print("les bornes de l'IC pour k sont %s et %s" % (IC1_k, IC2_k))
print("les bornes de l'IC pour beta sont %s et %s" % (IC1_beta, IC2_beta))

les bornes de l'IC pour k sont 1.4464576277946313 et 1.695529149386269
les bornes de l'IC pour beta sont 1.7700821133642024 et 2.110995617624618

IC1_k_MLE = k_tilde_MLE[int(np.floor(alpha * B/2))]
IC2_k_MLE = k_tilde_MLE[int(np.floor((1-alpha/2) * B))]

IC1_beta_MLE = beta_tilde_MLE[int(np.floor(alpha * B/2))]
IC2_beta_MLE = beta_tilde_MLE[int(np.floor((1-alpha/2) * B))]

print("les bornes de l'IC pour k sont %s et %s" % (IC1_k_MLE, IC2_k_MLE))
print("les bornes de l'IC pour beta sont %s et %s" % (IC1_beta_MLE, IC2_beta_MLE))

les bornes de l'IC pour k sont 1.4805872892189715 et 1.6592967578911497
les bornes de l'IC pour beta sont 1.806081141092021 et 2.0621232034262773

figsize(9, 9)

plt.subplot(221)

plt.hist(k_boot, bins=80, density=True, alpha=0.2, label="échantillon");
plt.hist(k_boot_MLE, bins=80, density=True, alpha=0.2, label="échantillon MLE");
plt.vlines(k, 0, 4, label="vraie valeur")
plt.title("histogramme échantillon bootstrap pour $k*$")
plt.legend()

plt.subplot(222)

y = np.linspace(1/B, 1, B)
plt.plot(k_tilde, y)
plt.plot(k_tilde_MLE, y)
plt.title("fonction de répartition bootstrap pour $k*$")

plt.subplot(223)

plt.hist(beta_boot, bins=80, density=True, alpha=0.2, label="échantillon");
plt.hist(beta_boot_MLE, bins=80, density=True, alpha=0.2, label="échantillon MLE");
plt.vlines(beta, 0, 2, label="vraie valeur")
plt.title("histogramme échantillon bootstrap pour beta*")
plt.legend()

plt.subplot(224)

y = np.linspace(1/B, 1, B)
plt.plot(beta_tilde, y)
plt.plot(beta_tilde_MLE, y)
plt.title("fonction de répartition bootstrap pour beta*");

k_hat_MLE, _, beta_hat_MLE = sps.gamma.fit(X, floc=0)

biais_boot = k_boot.mean() - k_hat
biais_boot

0.004168818711545175

biais_boot_MLE = k_boot_MLE.mean() - k_hat_MLE
biais_boot_MLE

0.05177565556255437

var_boot = k_boot.var()
var_boot

0.004018804633881902

var_boot_MLE = k_boot_MLE.var()
var_boot_MLE

0.0020597578971435497

RMSE = biais_boot**2 + var_boot 
RMSE

0.004036183683331631

RMSE_MLE = biais_boot_MLE**2 + var_boot_MLE 
RMSE_MLE

0.004740476406075817

biais_boot = beta_boot.mean() - beta_hat
biais_boot

-0.002114251043044524

biais_boot_MLE = beta_boot_MLE.mean() - beta_hat_MLE
biais_boot_MLE

-0.06469745253641324

var_boot = beta_boot.var()
var_boot

0.007381955898589861

var_boot_MLE = beta_boot_MLE.var()
var_boot_MLE

0.004284551352523174

RMSE = biais_boot**2 + var_boot 
RMSE

0.007386425956062876

var_boot_MLE = k_boot_MLE.var()
var_boot_MLE

0.0020597578971435497

TP1 Méthode de Bootstrap¶

1) Motivation¶

2) Le cas d'un échantillon Gaussien¶

a) Pour $\mu$.¶

b) Pour $\sigma^2$¶

3) Le Bootstrap (paramétrique)¶

a) Distribution Bootstrap¶

b) Intervalle de confiance Bootstrap¶

c) Estimation Bootstrap du biais et de la variance¶

d) Revenons à notre exemple avec la loi normale.¶

4) Le cas d'un échantillon de loi Gamma¶

Question 1)¶

Question 2)¶

Question 3)¶

Question 4)¶

Solutions:¶

Question 1)¶

Question 2)¶

Question 3)¶

Question 4)¶