Данный ноутбук является домашкой по курсу «R для теории вероятностей и математической статистики» (РАНХиГС, 2017-2018). Автор ноутбука вот этот парень по имени Филипп. Если у вас для него есть деньги, слава или женщины, он от этого всего не откажется. Ноутбук распространяется на условиях лицензии Creative Commons Attribution-Share Alike 4.0. При использовании обязательно упоминание автора курса и аффилиации. При наличии технической возможности необходимо также указать активную гиперссылку на страницу курса. На ней можно найти другие материалы. Фрагменты кода, включенные в этот notebook, публикуются как общественное достояние.
Приветствую вас внутри четвёртой домашки. Краткий брифинг:
library('maxLik') # пакет для метода макс. правдоподобия
library('dplyr') # пакет для работы с таблицами
library("ggplot2") # Пакет для красивых графиков
library("grid") # Пакет для субплотов
# Отрегулируем размер картинок, которые будут выдаваться в нашей тетрадке
library('repr')
options(repr.plot.width=4, repr.plot.height=3)
Начинающий каратист Вася тренируется бить кирпичи ударом ладони. Каждый день он бьёт ладонью по кирпичу до пор, пока тот не расколется от одного удара. Предположим, что вероятность разбить кирпич с одного удара равна $p$ и неизменна во времени. Величины $X_1, X_2, \ldots , X_n$ — количества ударов которые потребовались Васе в соответствующий день. Заполните для неизвестного параметра $p$ табличку:
$\hat p $ | несмещённая | смещённая |
---|---|---|
состоятельная | ||
несостоятельная |
Покажите для всех оценок из таблички, что вы поместили их в правильные места.
# Ваш код, если он здесь вообще нужен :)
Александр раздобыл два золотых слитка массой $m$ каждый. Также он раздобыл весы, которые работают с некоторой погрешностью. Сначала Саша положил на весы первый золотой слиток и получил в результате взвешивания $m + \varepsilon_1$, где $ \varepsilon_1$ - случайная величина, ошибка первого взвешивания. Затем Саша положил на весы сразу оба слитка и получил в результате взвешивания $2m + \varepsilon_2$, где $ \varepsilon_2$ - случайная величина, ошибка второго взвешивания. Оказалось, что $y_1 = 60$, $y_2 = 110$.
С помощью метода максимального правдоподобия оцените вес слитка $m$ и погрешность весов, $b$, если ошибки не зависят друг от друга и
a) $\varepsilon_i \sim U[-b,b]$
b) $\varepsilon_i \sim N(0,b^2)$
Сначала получите оценки на бумажке, ручками, а затем в R. Присылать мне на почту свои изыскания на бумажках не нужно! Достаточно кода.
c) Постройте для обоих случаев $95\%$ доверительный интервал для параметров $b$ и $m$.
# ваши записи на бумажках и коды :3
a) Cгенерируйте выборку из распределения $U[0; a]$. Возмите в качестве $a$ своё любимое число. Найдите руками оценку максимального правдоподобия для параметра $a$. После найдите её с помощью R. Насколько то, что вы получили соответствует вашим ожиданиям? Почему всё произошло именно так?
# Ваш код здесь
b) Сгенерируйте выборку из распределения $U[1-\theta; 1+\theta]$. В качестве $\theta$ возьмите любимое число сына маминой подруги. Найдите оценку для $\theta$ руками. После найдите её с помощью R. Насколько то, что вы получили, соответствует вашим ожиданиям? Почему всё произошло именно так?
# Ваш код здесь
с) Являются ли оценки, которые вы получили для пунктов a) и b) состоятельными и несмещёнными?
# Ваш код, если это необходимо :)
d) Какая из оценок лучше? Почему? Какая оценка обладает в пределе меньшей дисперсией?
# Ваш код здесь
Каждый из группы второкурсников, пришедшей на пару подкинул монетку два раза и никому не рассказывал, что у него выпало. В зависимости от того, что выпало на монетках, а также от того пробовал ли человек наркотики или нет, он сказал одну из двух фраз: болото или феечка Винкс.
был хотя бы один орел | не было ни одного орла | |
---|---|---|
пробовал | болото | феечка Винкс |
не пробовал | феечка Винкс | болото |
Ответы распределились следующим образом:
Болото сказали 10 человек, феечка Винкс сказали 4 человека.
a) Оцените методом максимального правдоподобия долю второкурсников, пробовавших наркотики.
b) Найдите $\hat{Var}(\hat p)$.
c) Постройте $80\%$ доверительный интервал для доли пробовавших наркотики.
# Ваш код
В группе мемы про машинное обучение для взрослых мужиков постят мемы про машинное обучение для взрослых мужиков. Взрослые мужики смотрят мемы про машинное обучение, лайкают их, комментируют и репостят. В итоге рождается табличка со статистикой.
Предположим, что просмотры, лайки, число комментариев и репосты имеют распределение Пуассона, $X_i \sim Poiss(\lambda)$. Также будем предполагать, что число лайков (и других показателей) на текущем посте не зависит от числа лайков на других постах.
a) Оцените методом максимального правдоподобия параметр $\lambda$ для каждой из четырёх случайных величин. Проинтерпретируйте полученые оценки.
b) Постройте для всех четырёх ситуаций доверительные интервалы для параметра $\lambda$. Почему для одних случайных величин он получился более узким, а для других более широким?
с) Сколько лайков, репостов, комментариев и просмотров окажется под следующим постом? Постройте для своего прогноза $95\%$ доверительный интервал.
# Ваш код
# Ваш код
В этой задачке есть всё. Пусть $X_1, \ldots, X_n$ независимые случайные величины с плотностью распределения
$$ f_X(x) = \begin{cases} (a+1) \cdot x^a, \quad x \in [0;1] \\ 0, \text{ иначе} \end{cases} $$a) Найдите руками для параметра $a$ оценку методом моментов. Найдите оценку методом максимального правдоподобия.
b) Найдите асимптотические распределения этих оценок.
с) Постройте на основе этих распределений $95\%$ доверительные интервалы. Для какой оценки доверительный интервал оказался короче?
d) Какая из оценок является асимптотически более крутой? Для ответа на этот вопрос найдите $$\lim_{n \to \infty} \frac{\hat Var(\hat a_{ML})}{\hat Var(\hat a_{MM})}.$$
e) Сгенерируйте в R выборку объёма $100$ из этого распределения. Постройте оценки, а также доверительные интервалы для них. Правда ли, что результаты, полученные в пунктах с) и d) верны для этой выборки?
# Ваш код здесь