Detectar outliers usando a distribuição normal - 2021

Índice:

Detectar outliers usando a distribuição normal - 2021
Detectar outliers usando a distribuição normal - 2021
Anonim

A detecção de outliers por meio da distribuição normal é um processo que envolve a definição de um limite de desvio padrão e com o qual se pretende encontrar os valores extremos de uma amostra.

Em outras palavras, detectar outliers por meio da distribuição normal é encontrar valores extremos de um conjunto de dados por meio da fórmula normal padronizada.

  • Os valores extremos são chamados outliers em inglês.
  • Os valores interno são chamados insiders em inglês.

A detecção visual de outliers pode ser uma opção quando você tem poucos dados. Ao trabalhar com bancos de dados, é muito impraticável ter que descobrir manualmente os valores discrepantes. Para resolver este problema, podemos calcular quais são os valores considerados extremos comparando com um limiar de desvios.

Para o caso da distribuição normal, um valor é considerado extremo quando está a 3 desvios padrão da média. Como a distribuição normal tem 2 caudas, devemos levar em consideração que ela pode ser ampliada tanto no lado negativo quanto no positivo.

Fórmula para detectar outliers usando a distribuição normal

Um conjunto de observações pode ser expresso da forma anterior, onde x é o valor médio sobre o qual os valores oscilam e sigma a dispersão da oscilação dos referidos valores. Em outras palavras, sigma é a distância das observações do valor médio.

O fator multiplicativo determina se é um outlier ou um insider. Se z assumir os valores de 3 ou -3, então, de acordo com a distribuição normal, a observação y será um outlier.

Para saber o valor de z usamos a equação anterior:

  • Se z> = 3 ou z = <-3, então, de acordo com a distribuição normal, podemos dizer que Y é um valor extremo ou outlier.
  • Se z <3 ou z <-3, então, de acordo com a distribuição normal, podemos dizer que Y é um valor interno ou insider.

Padrão normal

A equação acima é familiar?

Exatamente, é a expressão de uma observação que segue uma distribuição normal uma vez padronizada ou tipificada. É assim chamado porque ao dividir pelo padrão ou desvio padrão, a diferença do numerador está sendo expressa em termos de desvios.

Por este motivo, podemos associar valores de desvio a z e assim ser capaz de comprá-lo com o limite de 3 desvios.

Exemplo

Encontre os valores extremos das seguintes observações de acordo com a distribuição normal:

Representamos as observações em um gráfico:

Desde o início, já podemos ver que o valor que está mais distante do resto pode provavelmente ser um valor atípico.

Primeiro, calculamos a média e o desvio padrão:

x = média = 5,8

sigma = desvio padrão = 10,51

Em seguida, substituímos os valores na fórmula e calculamos o valor de z para cada observação:

Os valores acima são os fatores multiplicativos de sigma, ou seja, z. Qualquer coisa maior que 3 ou menor que -3 será um valor extremo.

Podemos ver que o valor de z que excede 3 desvios padrão é o que corresponde à observação 49.

Portanto, o valor extremo ou atípico do conjunto de dados seria 49.