O rho de Spearman é uma medida de dependência não paramétrica em que a hierarquia média das observações é calculada, as diferenças são quadradas e incorporadas à fórmula.
Em outras palavras, atribuímos uma classificação às observações de cada variável e estudamos a relação de dependência entre duas variáveis fornecidas.
Correlações classificadas são uma alternativa não paramétrica como medida de dependência entre duas variáveis quando não podemos aplicar o coeficiente de correlação de Pearson.
Geralmente, a letra giega é atribuída rho ao coeficiente de correlação.
A estimativa de rho de Spearman é dada por:
Procedimento de Rho Spearman
0. Partimos de uma amostra de n observações (Aeu, Beu).
1. Classifique as observações de cada variável ajustando-as pelos empates.
- Usamos uma função do Excel que classifica as observações para nós e as ajusta automaticamente se encontrar vínculos entre os elementos. Esta função é chamada HERARCH.MEDIA (classificação Aeu; Uma classificaçãon;pedido).
- O último fator da função é opcional e nos diz em que ordem queremos ordenar as observações. Um número diferente de zero classificará as observações em ordem crescente. Por exemplo, ele atribuirá ao menor elemento uma classificação de 1. Se colocarmos um zero na variável pedido, atribuirá ao maior item uma classificação 1 (ordem decrescente).
Exemplo prático
- Em nosso caso, atribuímos à variável de ordem um número diferente de zero para ordenar as observações em ordem crescente. Ou seja, atribuindo ao menor elemento da variável uma classificação de 1.
- Verificamos que as somas totais das colunas de Classificação A Y Classificação B eles são iguais um ao outro e se encontram:
Neste caso, n = 10 porque temos um total de 10 elementos / observações em cada variável PARA Y B.
A soma total da Classificação A é igual à soma total da Classificação Y e também atendem à fórmula acima.
PARA | B | Classificação A | Classificação B | Diferenças quadradas |
0 | 50 | 2,5 | 8,5 | 36 |
70 | -20 | 9 | 3 | 36 |
-20 | 30 | 1 | 6,5 | 30,25 |
40 | -90 | 6 | 1 | 25 |
30 | 0 | 5 | 4 | 1 |
50 | 30 | 7 | 6,5 | 0,25 |
20 | 20 | 4 | 5 | 1 |
0 | -40 | 2,5 | 2 | 0,25 |
80 | 70 | 10 | 10 | 0 |
60 | 50 | 8 | 8,5 | 0,25 |
Total | 55 | 55 | 130 |
2. Some as diferenças entre as classificações e eleve-as ao quadrado.
- Depois de termos todas as observações classificadas levando em consideração os vínculos entre elas, calculamos a diferença na forma:
deu = Aeu - Beu
Nós definimos (deu) como a diferença entre a classificação de Aeu e a classificação de Beu.
- Uma vez que a diferença é obtida, nós a elevamos ao quadrado. Os quadrados das diferenças são aplicados para ter apenas valores positivos.
Nós definimos deu2 como a diferença quadrática entre a classificação de Aeu e a classificação de Beu.
Na coluna de diferenças quadradas teremos:
deu2 = (Aeu - Beu)2
3. Calcule o rho de Spearman:
- Calculamos a soma total das diferenças quadradas do formulário:
Em nosso exemplo:
- Incorporamos o resultado na fórmula rho de Spearman:
Em nosso exemplo:
Comparação: Pearson vs Spearman
Se calcularmos o coeficiente de correlação de Pearson com base nas observações anteriores e compará-lo com o coeficiente de correlação de Spearman, obtemos:
- Pearson = 0,1109
- Spearman = 0,2121
Podemos ver que a dependência entre as variáveis A e B permanece fraca mesmo usando Spearman em vez de Pearson.
Se os outliers tivessem muita influência nos resultados, encontraríamos uma grande diferença entre Pearson e Spearman e, portanto, deveríamos usar Spearman como uma medida de dependência.