Outlier - O que é, definição e conceito

Índice:

Anonim

Um outlier é uma observação anormal e extrema em uma amostra estatística ou série de dados de tempo que pode afetar potencialmente a estimativa de seus parâmetros.

Em palavras mais simples, um outlier seria uma observação dentro de uma amostra ou uma série de dados de tempo que não é consistente com o resto. Imagine, por exemplo, que estamos medindo a altura dos alunos de uma classe.

Vamos imaginar uma amostra de 10 alunos. A altura de cada um é a seguinte:

Amostra 1
AlunaAltura em metros
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

A altura média da turma seria 1,73. Se levarmos em consideração a altura máxima (1,85) e a altura mínima (1,62) e a distância entre elas à média, vemos que é 0,113 e 0,117 respectivamente. Como podemos ver, a média está aproximadamente no meio do intervalo e pode ser considerada uma estimativa bastante boa.

O efeito outlier

Agora vamos pensar em outra amostra de 10 alunos, suas alturas sendo as seguintes:

Amostra 1
AlunaAltura em metros
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

Nesse caso, a altura média da turma seria de 1,81. Se olharmos agora para a altura máxima (2,20) e a altura mínima (1,62) e a distância entre elas para a média, vemos que é 0,39 e 0,18, respectivamente. Nesse caso, a média não está mais aproximadamente no meio do intervalo.

O efeito das 2 observações mais extremas (2.18 e 2.20) fez com que a média aritmética se deslocasse em direção ao valor máximo da distribuição.

Com este exemplo, vemos o efeito que os valores discrepantes têm e como eles podem distorcer o cálculo de uma média.

Como detectar outliers?

Como corrigir o efeito de outliers

Em situações como essa, em que há valores anormais substancialmente diferentes dos demais, a mediana é uma estimativa melhor para saber em que ponto está concentrado um número maior de observações.

No caso de ambas as distribuições e como temos um número par de valores, não podemos pegar exatamente o valor que divide a distribuição pela metade para calcular a mediana. Com o qual, depois de ordenar os valores do menor para o maior, tomaríamos a quinta e a sexta observação (ambas deixam 4 observações de cada lado) e calcularíamos a mediana da seguinte forma:

Amostra 1:

1,75+1,72/2 = 1,73

Amostra 2:

1,79+1,71/2 = 1,75

Como podemos observar, na amostra número 1, dado que não há outliers ou observações anormais, a mediana é 1,73 e coincide com a média. Ao contrário, para a amostra 2, a média é 1,75. Como podemos ver, este valor está mais longe da altura média, que era 1,81 e nos dá uma estimativa pontual de qualidade superior para saber aproximadamente em que ponto um maior número de observações está concentrado.

Ponto estimado