import numpy as np
import scipy.stats as sps 
import matplotlib.pyplot as plt
from IPython.core.pylabtools import figsize

def Moment_p_boot(X, p, B):
    
    n = len(X)
    p_hat = X.mean()
    
    p_boot = np.zeros(B)
    
    for b in range(B):
        X = sps.bernoulli(p_hat).rvs(n)
        p_boot[b] = X.mean()
        
    biais_boot = p_boot.mean() - p_hat
    var_boot = p_boot.var()
 
    return biais_boot**2 + var_boot


def MM_p_boot(X, p, B):
    
    n = len(X)
    sqrt_n = np.sqrt(n)
    c1 = sqrt_n / (sqrt_n + 1)
    c2 = 0.5 / (sqrt_n + 1)
    
    p_hat = c1 * X.mean() + c2
    
    p_boot = np.zeros(B)
    
    for b in range(B):
        X = sps.bernoulli(p_hat).rvs(n)
        p_boot[b] = c1 * X.mean() + c2
        
    biais_boot = p_boot.mean() - p_hat
    var_boot = p_boot.var()
    
    return biais_boot**2 + var_boot

def plot_RMSE(P, N, B):
    
    moment_boot = np.zeros((len(N), len(P)))
    mm_boot = np.zeros((len(N), len(P)))
    
    for (i,n) in enumerate(N):
        for (j,p) in enumerate(P):
            X = sps.bernoulli(p).rvs(n)
            moment_boot[i,j] = Moment_p_boot(X, p, B)
            mm_boot[i,j] = MM_p_boot(X, p, B)
            
    return moment_boot, mm_boot

P = np.linspace(0, 1, 20)
N = [30, 2000]
B = 2000

moment_boot, mm_boot = plot_RMSE(P, N, B)

plt.subplot(121)
plt.plot(P, moment_boot[0,:], label="Moment/MLE")
plt.plot(P, mm_boot[0,:], label="MiniMax")
plt.xlabel("p")
plt.ylabel("RMSE")
plt.legend()

plt.subplot(122)
plt.plot(P, moment_boot[1,:], label="Moment/MLE")
plt.plot(P, mm_boot[1,:], label="MiniMax")
plt.xlabel("p")
plt.ylabel("RMSE")
plt.legend()

figsize(15,5)

S = np.arange(1,5)
n = (5,6)
np.random.choice(S, n)

array([[3, 2, 4, 2, 3, 1],
       [1, 1, 2, 3, 2, 4],
       [3, 3, 3, 3, 3, 2],
       [2, 2, 3, 4, 2, 2],
       [1, 3, 1, 2, 3, 2]])

n = 30
mu = 0.
sig = np.sqrt(2)

X = sps.norm(mu, sig).rvs(n)

mu_hat = X.mean()
sig_hat = X.std()

mu_hat, sig_hat

(-0.027315054781262706, 1.4426289708897668)

def dist_boot_nonpara(data, B):
        
    n = len(data)
    
    X = np.random.choice(data,(B, n))
    
    mu_boot = X.mean(axis=1)
    sig_boot = X.std(axis=1)
    
    return mu_boot, sig_boot

def dist_boot(data, B):
    
    """génèe un échantillon bootstrap pour mu et sigma de taille B"""
    
    mu_hat = data.mean()
    sig_hat = data.std()
    
    n = len(data)
    
    X = sps.norm(mu_hat, sig_hat).rvs((B, n))
    
    mu_boot = X.mean(axis=1)
    sig_boot = X.std(axis=1)
    
    return mu_boot, sig_boot

B = 20000

mu_boot, sig_boot = dist_boot(X, B)
mu_boot_nonpara, sig_boot_nonpara = dist_boot_nonpara(X, B)

plt.subplot(121)
plt.hist(mu_boot, bins=80, density=True, alpha=0.2, label="param")
plt.hist(mu_boot_nonpara, bins=50, density=True, alpha=0.2, label="non param")
plt.vlines(mu, 0, 2, label="vraie valeur")
plt.legend()

plt.subplot(122)
plt.hist(sig_boot, bins=80, density=True, alpha=0.2, label="param")
plt.hist(sig_boot_nonpara, bins=50, density=True, alpha=0.2, label="non param")
plt.vlines(sig, 0, 2, label="vraie valeur")
plt.legend()

figsize(15,5)

biais_mu = mu_boot.mean() - mu_hat
var_mu = mu_boot.var()
RMSE_mu = biais_mu**2 + var_mu

biais_mu_nonpara = mu_boot_nonpara.mean() - mu_hat
var_mu_nonpara = mu_boot_nonpara.var()
RMSE_mu_nonpara = biais_mu_nonpara**2 + var_mu_nonpara

RMSE_mu, RMSE_mu_nonpara

(0.06883268406437261, 0.06957082195076598)

biais_sig = sig_boot.mean() - sig_hat
var_sig = sig_boot.var()
RMSE_sig = biais_sig**2 + var_sig

biais_sig_nonpara = sig_boot_nonpara.mean() - sig_hat
var_sig_nonpara = sig_boot_nonpara.var()
RMSE_sig_nonpara = biais_sig_nonpara**2 + var_sig_nonpara

RMSE_sig, RMSE_sig_nonpara

(0.03625884963949387, 0.03248256382346437)

import pandas as pd

data = pd.read_csv("data_France.csv")

data.head()

data.columns

Index(['Year', 'January', 'February', 'March', 'April', 'May', 'June', 'July',
       'August', 'September', 'October', 'November', 'December', 'Winter',
       'Spring', 'Summer', 'Fall', 'MeteorologicalYear'],
      dtype='object')

df = data[ ["Year", "MeteorologicalYear"] ]
df.head()

df.plot(x = "Year", y="MeteorologicalYear", kind="scatter", alpha=0.5);

df.plot(x = "Year", y="MeteorologicalYear", 
        marker="o", ylabel = "variation température (C)", alpha=0.5);

cov_mat = np.cov(df.MeteorologicalYear, df.Year)
beta_hat = cov_mat[0,1]/cov_mat[1,1]
alpha_hat = df.MeteorologicalYear.mean() - beta_hat * df.Year.mean()
sigma_hat = np.std( df.MeteorologicalYear - alpha_hat - beta_hat * df.Year )

alpha_hat, beta_hat, sigma_hat

(-68.70923670368205, 0.0348572180011689, 0.4515710612882542)

df.plot(x = "Year", y="MeteorologicalYear", 
        marker="o", ylabel = "variation température (C)", alpha=0.5, label="data")

years = df.Year.to_numpy()
plt.plot(years, alpha_hat + beta_hat * years, label="linear_approx")
plt.legend();

def Estim_boot(df, B):
    
    n = df.shape[0]
    T_mean = df.Year.mean()
    
    cov_mat = np.cov(df.MeteorologicalYear, df.Year)
    beta_hat = cov_mat[0,1]/cov_mat[1,1]
    alpha_hat = df.MeteorologicalYear.mean() - beta_hat * T_mean
    sigma_hat = np.std( df.MeteorologicalYear - alpha_hat - beta_hat * df.Year )
    
    alpha_boot = np.zeros(B)
    beta_boot = np.zeros(B)
    sigma_boot = np.zeros(B)
    
    
    for b in range(B):
        
        Y = alpha_hat + beta_hat * df.Year + sigma_hat * sps.norm().rvs(n)
        
        cov_mat = np.cov(Y, df.Year)
        
        beta_tmp = cov_mat[0,1]/cov_mat[1,1]
        alpha_tmp = Y.mean() - beta_tmp * T_mean
        sigma_tmp = np.std( Y - alpha_tmp - beta_tmp * df.Year )
        
        beta_boot[b] = beta_tmp
        alpha_boot[b] = alpha_tmp
        sigma_boot[b] = sigma_tmp
 
    return alpha_boot, beta_boot, sigma_boot

B= 2000
alpha_boot, beta_boot, sigma_boot = Estim_boot(df, B)

plt.hist(alpha_boot, bins=50, alpha=0.2, density=True);

plt.hist(beta_boot, bins=50, alpha=0.2, density=True);

plt.hist(sigma_boot, bins=50, alpha=0.2, density=True);

df.plot(x = "Year", y="MeteorologicalYear", 
        marker="o", ylabel = "variation température (C)", alpha=0.5, label="data")

years = df.Year.to_numpy()
for b in range(B):
    plt.plot(years, alpha_boot[b] + beta_boot[b] * years, color="orange", alpha=0.05)

np.mean(beta_boot > 0)

1.0

T0_boot = (3-alpha_boot - sigma_boot * sps.norm().rvs(B))/beta_boot
T0_boot = T0_boot[T0_boot>2021]

plt.hist(T0_boot, bins=50, alpha=0.2);

alpha = 0.025
T0_tilde = np.sort(T0_boot)

IC1_T0 = T0_tilde[int(np.floor(alpha*B/2))]
IC2_T0 = T0_tilde[int(np.floor((1-alpha/2)*B))]

print("les bornes de l'IC pour mu sont %s et %s" % (IC1_T0, IC2_T0))

les bornes de l'IC pour mu sont 2029.8766316166264 et 2095.119509581521

	Year	January	February	March	April	May	June	July	August	September	October	November	December	Winter	Spring	Summer	Fall	MeteorologicalYear
0	1961	0.098	3.417	1.726	2.680	-0.249	0.543	-0.511	-0.072	2.906	0.820	-0.313	0.435	0.828	1.386	-0.013	1.138	0.835
1	1962	1.602	-0.588	-2.716	-0.028	-1.209	-0.375	-0.522	0.804	-0.026	0.549	-1.503	-2.711	0.483	-1.318	-0.031	-0.327	-0.298
2	1963	-4.597	-4.475	-0.135	0.425	-0.684	-0.186	0.389	-1.456	-0.494	0.029	2.512	-2.600	-3.928	-0.131	-0.418	0.682	-0.949
3	1964	-1.664	0.972	-0.942	0.477	1.744	0.834	1.324	0.323	1.244	-1.790	0.424	-1.016	-1.097	0.426	0.827	-0.041	0.029
4	1965	0.346	-2.743	0.008	-0.472	-0.097	0.118	-1.277	-0.861	-1.988	0.804	-0.334	1.471	-1.138	-0.187	-0.673	-0.506	-0.626

	Year	MeteorologicalYear
0	1961	0.835
1	1962	-0.298
2	1963	-0.949
3	1964	0.029
4	1965	-0.626

TP1 Méthode de Bootstrap (suite)¶

5) Estimateur du minimax vs estimateur des moments¶

Question:¶

6) Bootstrap non paramétrique¶

7) Application à l'évolution des températures en France¶

Remarque:¶

Question 1)¶

Question 2)¶

Question 3)¶

Question 4)¶

Question 5)¶

Question 6)¶

Question 7)¶

Solutions¶

question 1)¶

question 2)¶

question 3)¶

question 4)¶

question 5)¶

question 6)¶

question 7)¶