Um outlier é uma observação anormal e extrema em uma amostra estatística ou série de dados de tempo que pode afetar potencialmente a estimativa de seus parâmetros.
Em palavras mais simples, um outlier seria uma observação dentro de uma amostra ou uma série de dados de tempo que não é consistente com o resto. Imagine, por exemplo, que estamos medindo a altura dos alunos de uma classe.
Vamos imaginar uma amostra de 10 alunos. A altura de cada um é a seguinte:
Amostra 1 | |
Aluna | Altura em metros |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
A altura média da turma seria 1,73. Se levarmos em consideração a altura máxima (1,85) e a altura mínima (1,62) e a distância entre elas à média, vemos que é 0,113 e 0,117 respectivamente. Como podemos ver, a média está aproximadamente no meio do intervalo e pode ser considerada uma estimativa bastante boa.
O efeito outlier
Agora vamos pensar em outra amostra de 10 alunos, suas alturas sendo as seguintes:
Amostra 1 | |
Aluna | Altura em metros |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
Nesse caso, a altura média da turma seria de 1,81. Se olharmos agora para a altura máxima (2,20) e a altura mínima (1,62) e a distância entre elas para a média, vemos que é 0,39 e 0,18, respectivamente. Nesse caso, a média não está mais aproximadamente no meio do intervalo.
O efeito das 2 observações mais extremas (2.18 e 2.20) fez com que a média aritmética se deslocasse em direção ao valor máximo da distribuição.
Com este exemplo, vemos o efeito que os valores discrepantes têm e como eles podem distorcer o cálculo de uma média.
Como detectar outliers?Como corrigir o efeito de outliers
Em situações como essa, em que há valores anormais substancialmente diferentes dos demais, a mediana é uma estimativa melhor para saber em que ponto está concentrado um número maior de observações.
No caso de ambas as distribuições e como temos um número par de valores, não podemos pegar exatamente o valor que divide a distribuição pela metade para calcular a mediana. Com o qual, depois de ordenar os valores do menor para o maior, tomaríamos a quinta e a sexta observação (ambas deixam 4 observações de cada lado) e calcularíamos a mediana da seguinte forma:
Amostra 1:
1,75+1,72/2 = 1,73
Amostra 2:
1,79+1,71/2 = 1,75
Como podemos observar, na amostra número 1, dado que não há outliers ou observações anormais, a mediana é 1,73 e coincide com a média. Ao contrário, para a amostra 2, a média é 1,75. Como podemos ver, este valor está mais longe da altura média, que era 1,81 e nos dá uma estimativa pontual de qualidade superior para saber aproximadamente em que ponto um maior número de observações está concentrado.
Ponto estimado