R для тервера и матстата¶

4.1 Что хочет статистик?¶

1. Любой статистик хочет¶

Несмещённость
Состоятельность
Эффективность

1.1 Про несмещённость¶

Первым свойством, которое мы обсудем, станет несмещённость. Начнём с определения.

Определение: Оценка $\hat \theta$ параметра $\theta$ называется несмещённой, если $E(\hat \theta) = \theta$.

Хорошо. А теперь попробуйте объяснить это бабушке простым языком. Слабо?

In [2]:

x_mamont = rnorm(10^4, mean=300, sd=100) # вся генеральная совокупность 
x_mamont[1:5]

245.209488191894
237.602212055856
216.581447880107
423.012856043634
151.273254236806

Шаман Одэхингум (паблик вконтакте говорит, что это переводится как лёгкое колебание воды) уверен в своём взоре и без толики сомнения каждый раз сообщает вождю, что вес мамонта, которого поймает племя будет

$$ \hat \theta_{od} = \frac{1}{n}\sum_{i=1}^{n} x_i.$$

Шаман Пэпина (что означает это имя, можно посмотреть в том же паблике) также обладает хорошим взором. Вместе с этим он обладает комплексом неполноценности. Он боится сделать слишком оптимистичный прогноз. Поэтому он считает среднее по сотне мамонтов и немного занижает его на волшебную константу

$$ \hat \theta_{pe} = \frac{1}{n}\sum_{i=1}^{n} x_i - \frac{4200}{n}.$$

Шаман Апониви среди трёх шаманов больше всего не уверен в себе. Он сильнее всех коректирует свой прогноз

$$ \hat \theta_{ap} = \frac{1}{n}\sum_{i=1}^{n} x_i - \frac{5 \cdot (n+1)}{n}.$$

In [120]:

mean(x_mamont)

299.355833595804

In [6]:

x_sample = sample(x_mamont, size = 100) 

mean(x_sample) # Раз на раз не приходится :3

290.3193582646

Ну что-ж! Давайте оценивать веса мамонтов. Предположим, что шаманы работают на протяжении 200 дней. Давайте посмотрим насколько хорошо они в течение этого периода будут помогать вождю.

In [8]:

th_od = rep(0,200)
th_pe = rep(0,200)
th_ap = rep(0,200)

for(i in 1:200){
    x_sample = sample(x_mamont, size = 100) 
    th_od[i] = mean(x_sample)
    th_pe[i] = mean(x_sample) - 4200/100
    th_ap[i] = mean(x_sample) - 5*(100+1)/100    
}

In [125]:

mean(th_od)

298.954419700457

In [126]:

mean(th_pe)

256.954419700457

In [127]:

mean(th_ap)

293.904419700457

In [9]:

df = data.frame('theta' = c(th_od, th_pe, th_ap),
                'who' = c(rep('Odahingum',200), 
                          rep('Pappina',200), rep('Opanovi',200)))
head(df,5)

theta	who
299.8023	Odahingum
305.0742	Odahingum
311.0352	Odahingum
292.7894	Odahingum
304.0588	Odahingum

In [140]:

ggplot(df, aes(who, theta)) + geom_boxplot()

In [141]:

ggplot(df, aes(who, theta)) + geom_violin()

2. Кексы про выборку¶

Первый кекс¶

Выбор! Журнал «Литерари Дайджест» опросил $10$ млн. человек
Предсказал победу республиканцу Альфу Лэндону($60$ на $40$)
Выборы выиграл демократ Франклин Рузвельт (как раз с таким же перевесом, но в обратную сторону)
Как думаете, почему?

Второй кекс¶

Часто вконтакте можно увидеть такие посты

Как считаете, какие проблемы возникнут у исследователя с выборкой? Удастся ли ему получить хорошие оценки?

Третий кекс¶

Фермер хочет оценить урожайность пшеницы от количества внесённых удобрений. Для этого он проводит эксперимент по выращиванию пшеницы. Он делит поле на две части. На правую он вносит удобрения, на левую нет. Как думаете, у него получится адекватно оценить влияние удобрений на урожайность?

Четвёртый кекс¶

Во время Второй Мировой войны американские военные собрали статистику попаданий пуль в фюзеляж самолёта. По самолётам, вернувшимся из полёта на базу, была составлена карта повреждений среднестатистического самолёта. С этими данными военные обратились к статистику Абрахаму Вальду с вопросом, в каких местах следует увеличить броню самолёта. Что посоветовал Абрахам Вальд и почему?

Мораль¶

К смещению оценок и несостоятельности могут приводить разные причины. При исследовании надо обязательнос следить за репрезентативностью выборки. Данные нужно собирать аккуратно.