Distribuição normal, distribuição t e intervalo de confiança

Assumindo que os parâmetros abaixo foram extraídos da população que apresenta distribuição normal

$$ \mu = 12,6 $$$$ \sigma = 2,3 $$

Podemos, criar o formato desta distribuição a partir da função de densidade da probabilidade da distribuição normal

$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr) $$

Perceba que para determinar a característica da curva de distribuição normal é necessário conhecer apenas dois parâmetros $\mu$ e $\sigma$

Por exemplo, vamos primeiro criar a distribuição normal usando os dados brutos

In [1]:
# Parâmetros da população
mu <- 12.6
sigma <- 2.3

N <- 1000 # número de observações
In [2]:
# Mostrar até 4 DP da média
xRaw <- seq(mu-4*sigma,mu+4*sigma, length = N)

# Função de probabilidade da distribuição normal
fnRaw = (1/(sigma*sqrt(2*pi)))*exp(-(xRaw-mu)**2/(2*sigma**2))  # normal pdf
In [3]:
# Visualizando distribuição normal
#graphics.off()
plot(xRaw, fnRaw, type = 'l', main = "Distribuição normal", xlab = "Variável dependente", ylab = "Freq", xaxt='n')
xtick <- c(mu-4*sigma,mu-3*sigma,mu-2*sigma,mu-sigma,mu,mu+sigma,mu+2*sigma,mu+3*sigma,mu+4*sigma)
axis(1, at = xtick)

Agora podemos criar uma distribuição normal N(0,1) padronizada uma vez que as propriedades da distribuição são bem conhecidas. Esta distribuição também é conhecida como Z. Assumimos então: $$ \mu = 0 $$ $$ \sigma = 1 $$

In [4]:
# Normal probability density function
xZ <- seq(-4,4,length=1000)
mu <- 0
sigma <- 1

# Função de probabilidade da distribuição normal
fnZ = (1/(sigma*sqrt(2*pi)))*exp(-(xZ-mu)**2/(2*sigma**2))  # normal pdf
In [5]:
# Visualizando distribuição normal padronizada
#graphics.off()
plot(xZ, fnZ, type = 'l', main = "Distribuição normal padronizada", xlab = "Variável dependente", ylab = "Freq", xaxt='n')
xtick <- seq(-4,4,1)
axis(1, at = xtick)

Portanto, a partir desta padronização da distribuição é possível calcular a proporção da população em uma faixa de valor, por meio da área sob a curva de distribuição. Por exemplo, suponha que você deseja saber qual a probabilidade de que um indivíduo desta população tenha valor maior que 12,6. Bom para isto é fácil pois sabemos que a área total da curva é 1 e que a média corresponde a 50% da distribuição. Portanto, a probabilidade é 0.5. Mas suponha que agora você queira calcular a probabilidade de obter um valor maior que 13. Primeiro, precisamos converter este valor para um medida padronizada que é o escore Z.

$$ z = \frac{x - \mu}{\sigma} $$
In [6]:
# Calculando o escore Z
z <- (13 - 12.6)/2.3
z
0.173913043478261

Portanto, podemos dizer que a probabilidade é um pouco menor que 0.5 uma vez que este valor é maior que a média. Porém para determinarmos a probabilidade correta é necessário obter a área sob a curva da distribuição. Em geral, nas disciplinas de estatística isto é feito por meio de tabelas mas vamos usar o R para fazer isto.

In [7]:
# Assumindo distribuição normal padronizada podemos obter a proporção
pZ <- pnorm(z, mean = 0, sd = 1)
1-pZ
0.430966900814878

Portanto, concluímos que a proporção da população que apresenta valores maiores que 13 é de 43%.

O gráfico abaixo mostra a área da curva de distribuição que corresponde a esta proporção.

In [8]:
# Visualizando distribuição normal padronizada
#graphics.off()
plot(xZ, fnZ, type = 'l', main = "Distribuição normal padronizada", xlab = "Variável dependente", ylab = "Freq", xaxt='n')
xtick <- seq(-4,4,1)
axis(1, at = xtick)

# Obtendo o indice da região com maior que o valor crítico
ipZ <- xZ > z

# Preenchendo a área sob a curva
polygon(c(z,xZ[ipZ],4),c(0,fnZ[ipZ],0), col = "red")

Intervalo de confiança

Na maioria das situações não é possível obter os parâmetros da população e temos de usar estimativas de amostras extraídas desta população. De fato, na maioria dos casos de apenas uma única amostra. Uma questão óbvia que surge quando realizamos uma pesquisa é qual é o tamanho da amostra? A resposta mais usada é quanto mais melhor. Vamos entender qual é a associação entre o tamanho da amostra e a validade da estatística inferencial.

Suponha que você esteja interessado em saber qual é o comprimento médio das pernas da população de São Bernardo do Campo que está por volta de 817 mil habitantes. Obviamente, você não vai medir todos os habitantes mas provavelmente obter as medidas de uma amostra desta população. Então a média desta amostra é chamada de estimativa pontual, ou seja, é o valor que estima o parâmetro da população.

A pergunta seguinte é "Quão boa é esta estimativa?"

Infelizmente, é impossível saber com exatidão quão perto esta estimativa pontual está do verdadeiro parâmetro da população. Portanto, os estatísticos preferem estimar o intervalo ao invés de um ponto.

O grau de confiança de um intervalo estimado é a probabilidade que este intervalo inclua o verdadeiro parâmetro (ex. a média da população) e considerando que uma amostra grande seja usada e que o processo para obter a estimativa do parâmetro sejam repetidas. Portanto, o intervalo de confiança é usada para indicar a precisão da estimativa obtida pela amostra.

Por exemplo, suponha que você obtenha a média de 100 habitantes escolhidos aleatoriamente de SBC. Se você repetir este processo 30 vezes, você vai obter um distribuição das médias destas amostras que muito provavelmente terá distribuição normal.

Intervalo de confiança para sigma conhecido

$$ \left[\bar{x} - Z_{\alpha/2}\:\sigma/\sqrt{n},\quad \bar{x} + Z_{\alpha/2}\:\sigma/\sqrt{n}\right] $$

O termo $Z_{\alpha/2}\:\sigma/\sqrt{n}$ também é conhecido como margem de erro da média e representa o máximo erro da estimativa ou a máxima diferença entre o ponto estimado pela amostra e o valor real do parâmetro.

Exemplo retirado do livro do Bluman

A survey of 30 emergency room patients found that the average waiting time for treatment was 174.3 minutes. Assuming that the population standard deviation is 46.5 minutes, find the best point estimate of the population mean and the 99% confidence of the population mean

In [9]:
m <- 174.3 # média da amostra
sigma <- 46.5 # desvio padrão da população
n <- 30 # tamanho da amostra

# Obtendo Z para alpha/2
alpha  <- 0.01
Zalpha <- qnorm(1-alpha/2, mean = 0, sd = 1)
Zalpha
2.5758293035489
In [10]:
# Intervalo de confiança de 99%
ic99 <- m + (Zalpha*(sigma/sqrt(n)))*c(-1,1)
round(ic99, digits = 1)
  1. 152.4
  2. 196.2

Portanto, podemos ser 99% confiantes que a média do tempo de espera para o tratamento está entre 152.4 a 196.2 minutos.

Intervalo de confiança para sigma desconhecido

Na maioria dos casos não é possível conhecer a variância da população e, portanto, é necessário usar o desvio padrão da amostra. Nestes casos não é possível usar a distribuição Z, principalmente quando a amostra é pequena. Então usamos uma outra família de distribuição conhecida como distribuição Student t. Na prática, a distribuição t vai levar em conta o tamanho da amostra e ajustar os valores de probabilidade para aumentar o intervalo de confiança.

O cálculo do intervalo de confiança para estes casos é feito da seguinte forma.

$$ \left[\bar{x} - T_{n-1}\:s/\sqrt{n},\quad \bar{x} + T_{n-1}\:s/\sqrt{n}\right] $$

Onde s é o desvio padrão da amostra. Como a distribuição T leva em conta os graus de liberdade, o tamanho da amostra deve ser informado.

Exemplo

Ten randomly selected people were asked how long they slept at night. The mean time was 7.1 hours, and the standard deviation was 0.78 hour. Find the 95% confidence interval of the mean time. Assume the variable is normally distributed.

In [11]:
# Calculando o intervalo de confiança
m <- 7.1 # média da amostra
sd <- 0.78 # desvio padrão da amostra
alpha <- 1-0.95
n <- 10 # tamanho da amostra
df <- n - 1 # degrees of freedom

tAlpha <- qt(1-alpha/2,df) # valor critico

icT95 <- m + (tAlpha*(sd/sqrt(n)))*c(-1,1)
round(icT95, digits = 2)
  1. 6.54
  2. 7.66

Therefore, one can be 95% confident that the population mean is between 6.54 and 7.66 inches.

Tamanho da amostra

Uma pergunta constante em estatística e pesquisa em geral é "qual é o tamanho da amostra para que eu tenha uma estimativa exata de um parâmetro?"

Para isto é necessário saber:

  • o quanto a sua estimativa pode estar distante do valor desejado (1, 2, 3 unidades)
  • quão confiante você pretende ser com esta estimativa

Então será necessário informações a respeito da margem de erro, do desvio padrão da população e do grau de confiança.

O cálculo amostral pode ser feito a partir da margem de erro

$$E = Z_{\alpha/2}\:\sigma/\sqrt{n}$$

Rearranjando obtemos

$$n = \left(Z_{\alpha/2}\:\sigma/E \right)^2 $$

Exemplo:

A scientist wishes to estimate the average depth of a river. He wants to be 99% confident that the estimate is accurate within 2 feet. From a previous study, the standard deviation of the depths measured was 4.33 feet.

In [12]:
E <- 2 # margem de erro
sigma <- 4.33 # standard deviation
alpha <- 1-0.99

# Z-score
zAlpha <- qnorm(1-alpha/2, mean = 0, sd = 1)

# Sample size
n <- ((zAlpha*sigma)/E)^2
ceiling(n)
32

Therefore, to be 99% confident that the estimate is within 2 feet of the true mean depth, the scientist needs at least a sample of 32 measurements.