Первым свойством, которое мы обсудем, станет несмещённость. Начнём с определения.
Определение: Оценка $\hat \theta$ параметра $\theta$ называется несмещённой, если $E(\hat \theta) = \theta$.
Хорошо. А теперь попробуйте объяснить это бабушке простым языком. Слабо?
x_mamont = rnorm(10^4, mean=300, sd=100) # вся генеральная совокупность
x_mamont[1:5]
Шаман Одэхингум (паблик вконтакте говорит, что это переводится как лёгкое колебание воды) уверен в своём взоре и без толики сомнения каждый раз сообщает вождю, что вес мамонта, которого поймает племя будет
$$ \hat \theta_{od} = \frac{1}{n}\sum_{i=1}^{n} x_i.$$Шаман Пэпина (что означает это имя, можно посмотреть в том же паблике) также обладает хорошим взором. Вместе с этим он обладает комплексом неполноценности. Он боится сделать слишком оптимистичный прогноз. Поэтому он считает среднее по сотне мамонтов и немного занижает его на волшебную константу
$$ \hat \theta_{pe} = \frac{1}{n}\sum_{i=1}^{n} x_i - \frac{4200}{n}.$$Шаман Апониви среди трёх шаманов больше всего не уверен в себе. Он сильнее всех коректирует свой прогноз
$$ \hat \theta_{ap} = \frac{1}{n}\sum_{i=1}^{n} x_i - \frac{5 \cdot (n+1)}{n}.$$mean(x_mamont)
x_sample = sample(x_mamont, size = 100)
mean(x_sample) # Раз на раз не приходится :3
Ну что-ж! Давайте оценивать веса мамонтов. Предположим, что шаманы работают на протяжении 200 дней. Давайте посмотрим насколько хорошо они в течение этого периода будут помогать вождю.
th_od = rep(0,200)
th_pe = rep(0,200)
th_ap = rep(0,200)
for(i in 1:200){
x_sample = sample(x_mamont, size = 100)
th_od[i] = mean(x_sample)
th_pe[i] = mean(x_sample) - 4200/100
th_ap[i] = mean(x_sample) - 5*(100+1)/100
}
mean(th_od)
mean(th_pe)
mean(th_ap)
df = data.frame('theta' = c(th_od, th_pe, th_ap),
'who' = c(rep('Odahingum',200),
rep('Pappina',200), rep('Opanovi',200)))
head(df,5)
theta | who |
---|---|
299.8023 | Odahingum |
305.0742 | Odahingum |
311.0352 | Odahingum |
292.7894 | Odahingum |
304.0588 | Odahingum |
ggplot(df, aes(who, theta)) + geom_boxplot()
ggplot(df, aes(who, theta)) + geom_violin()
Во время Второй Мировой войны американские военные собрали статистику попаданий пуль в фюзеляж самолёта. По самолётам, вернувшимся из полёта на базу, была составлена карта повреждений среднестатистического самолёта. С этими данными военные обратились к статистику Абрахаму Вальду с вопросом, в каких местах следует увеличить броню самолёта. Что посоветовал Абрахам Вальд и почему?
К смещению оценок и несостоятельности могут приводить разные причины. При исследовании надо обязательнос следить за репрезентативностью выборки. Данные нужно собирать аккуратно.