Notebook

R для тервера и матстата.

Домашка номер четыре!

Данный ноутбук является домашкой по курсу «R для теории вероятностей и математической статистики» (РАНХиГС, 2017-2018). Автор ноутбука вот этот парень по имени Филипп. Если у вас для него есть деньги, слава или женщины, он от этого всего не откажется. Ноутбук распространяется на условиях лицензии Creative Commons Attribution-Share Alike 4.0. При использовании обязательно упоминание автора курса и аффилиации. При наличии технической возможности необходимо также указать активную гиперссылку на страницу курса. На ней можно найти другие материалы. Фрагменты кода, включенные в этот notebook, публикуются как общественное достояние.

Приветствую вас внутри четвёртой домашки. Краткий брифинг:

Нужно решить три любые задачки!
Не бойтесь задачек, это они должны бояться вас! При возникновении проблем, пишите ;)

In [2]:

library('maxLik') # пакет для метода макс. правдоподобия
library('dplyr')  # пакет для работы с таблицами 

library("ggplot2")  # Пакет для красивых графиков 
library("grid")     # Пакет для субплотов

# Отрегулируем размер картинок, которые будут выдаваться в нашей тетрадке
library('repr')
options(repr.plot.width=4, repr.plot.height=3)

Задачка 1¶

Начинающий каратист Вася тренируется бить кирпичи ударом ладони. Каждый день он бьёт ладонью по кирпичу до пор, пока тот не расколется от одного удара. Предположим, что вероятность разбить кирпич с одного удара равна $p$ и неизменна во времени. Величины $X_1, X_2, \ldots , X_n$ — количества ударов которые потребовались Васе в соответствующий день. Заполните для неизвестного параметра $p$ табличку:

$\hat p $	несмещённая	смещённая
состоятельная
несостоятельная

Покажите для всех оценок из таблички, что вы поместили их в правильные места.

In [ ]:

# Ваш код, если он здесь вообще нужен :)

Задачка 2¶

Александр раздобыл два золотых слитка массой $m$ каждый. Также он раздобыл весы, которые работают с некоторой погрешностью. Сначала Саша положил на весы первый золотой слиток и получил в результате взвешивания $m + \varepsilon_1$, где $ \varepsilon_1$ - случайная величина, ошибка первого взвешивания. Затем Саша положил на весы сразу оба слитка и получил в результате взвешивания $2m + \varepsilon_2$, где $ \varepsilon_2$ - случайная величина, ошибка второго взвешивания. Оказалось, что $y_1 = 60$, $y_2 = 110$.

С помощью метода максимального правдоподобия оцените вес слитка $m$ и погрешность весов, $b$, если ошибки не зависят друг от друга и

a) $\varepsilon_i \sim U[-b,b]$

b) $\varepsilon_i \sim N(0,b^2)$

Сначала получите оценки на бумажке, ручками, а затем в R. Присылать мне на почту свои изыскания на бумажках не нужно! Достаточно кода.

c) Постройте для обоих случаев $95\%$ доверительный интервал для параметров $b$ и $m$.

In [ ]:

# ваши записи на бумажках и коды :3

Задачка 3¶

a) Cгенерируйте выборку из распределения $U[0; a]$. Возмите в качестве $a$ своё любимое число. Найдите руками оценку максимального правдоподобия для параметра $a$. После найдите её с помощью R. Насколько то, что вы получили соответствует вашим ожиданиям? Почему всё произошло именно так?

In [ ]:

# Ваш код здесь

b) Сгенерируйте выборку из распределения $U[1-\theta; 1+\theta]$. В качестве $\theta$ возьмите любимое число сына маминой подруги. Найдите оценку для $\theta$ руками. После найдите её с помощью R. Насколько то, что вы получили, соответствует вашим ожиданиям? Почему всё произошло именно так?

In [ ]:

# Ваш код здесь

с) Являются ли оценки, которые вы получили для пунктов a) и b) состоятельными и несмещёнными?

In [ ]:

# Ваш код, если это необходимо :)

d) Какая из оценок лучше? Почему? Какая оценка обладает в пределе меньшей дисперсией?

In [ ]:

# Ваш код здесь

Задачка 4¶

Каждый из группы второкурсников, пришедшей на пару подкинул монетку два раза и никому не рассказывал, что у него выпало. В зависимости от того, что выпало на монетках, а также от того пробовал ли человек наркотики или нет, он сказал одну из двух фраз: болото или феечка Винкс.

	был хотя бы один орел	не было ни одного орла
пробовал	болото	феечка Винкс
не пробовал	феечка Винкс	болото

Ответы распределились следующим образом:

Болото сказали 10 человек, феечка Винкс сказали 4 человека.

a) Оцените методом максимального правдоподобия долю второкурсников, пробовавших наркотики.

b) Найдите $\hat{Var}(\hat p)$.

c) Постройте $80\%$ доверительный интервал для доли пробовавших наркотики.

In [ ]:

# Ваш код

Задачка 5¶

В группе мемы про машинное обучение для взрослых мужиков постят мемы про машинное обучение для взрослых мужиков. Взрослые мужики смотрят мемы про машинное обучение, лайкают их, комментируют и репостят. В итоге рождается табличка со статистикой.

Предположим, что просмотры, лайки, число комментариев и репосты имеют распределение Пуассона, $X_i \sim Poiss(\lambda)$. Также будем предполагать, что число лайков (и других показателей) на текущем посте не зависит от числа лайков на других постах.

a) Оцените методом максимального правдоподобия параметр $\lambda$ для каждой из четырёх случайных величин. Проинтерпретируйте полученые оценки.

b) Постройте для всех четырёх ситуаций доверительные интервалы для параметра $\lambda$. Почему для одних случайных величин он получился более узким, а для других более широким?

с) Сколько лайков, репостов, комментариев и просмотров окажется под следующим постом? Постройте для своего прогноза $95\%$ доверительный интервал.

In [ ]:

# Ваш код

Задачка 6¶

В табличке лежит информация о стоимости квартир в Москве и о основных параметрах этих квартир. Пусть цена на квартиры имеет логарифмически нормальное распределение. Оцените параметры $\mu$ и $\sigma$ методом максимального правдоподобия. Постройте для оценок доверительные интервалы.

In [ ]:

# Ваш код

Задачка 7¶

В этой задачке есть всё. Пусть $X_1, \ldots, X_n$ независимые случайные величины с плотностью распределения

$$ f_X(x) = \begin{cases} (a+1) \cdot x^a, \quad x \in [0;1] \\ 0, \text{ иначе} \end{cases} $$

a) Найдите руками для параметра $a$ оценку методом моментов. Найдите оценку методом максимального правдоподобия.

b) Найдите асимптотические распределения этих оценок.

с) Постройте на основе этих распределений $95\%$ доверительные интервалы. Для какой оценки доверительный интервал оказался короче?

d) Какая из оценок является асимптотически более крутой? Для ответа на этот вопрос найдите $$\lim_{n \to \infty} \frac{\hat Var(\hat a_{ML})}{\hat Var(\hat a_{MM})}.$$

e) Сгенерируйте в R выборку объёма $100$ из этого распределения. Постройте оценки, а также доверительные интервалы для них. Правда ли, что результаты, полученные в пунктах с) и d) верны для этой выборки?

In [ ]:

# Ваш код здесь

R для тервера и матстата. Домашка номер четыре!

Задачка 1¶

Задачка 2¶

Задачка 3¶

Задачка 4¶

Задачка 5¶

Задачка 6¶

Задачка 7¶

R для тервера и матстата.

Домашка номер четыре!