Teste de Kolmogorov - Smirnoff (K-S) - 2021

Índice:

Teste de Kolmogorov - Smirnoff (K-S) - 2021
Teste de Kolmogorov - Smirnoff (K-S) - 2021
Anonim

O teste de Kolmogorov-Smirnoff (K-S) é um teste não paramétrico que visa determinar se a frequência de dois conjuntos de dados diferentes segue a mesma distribuição em torno de sua média.

Em outras palavras, o teste de Kolmogorov-Smirnoff (K-S) é um teste que se adapta ao formato dos dados e é usado para verificar se duas amostras diferentes seguem a mesma distribuição.

Por que é um teste não paramétrico?

A beleza da característica “não paramétrica” é que ela se ajusta aos dados e, conseqüentemente, às distribuições que podem seguir a frequência dos dados. Além disso, esse recurso nos livra de ter que assumir a priori qual distribuição a amostra segue.

Importância do teste K-S

Quantas vezes recebemos duas amostras e calculamos o coeficiente de correlação de Pearson sem pensar duas vezes? Em outras palavras, se quisermos ver a relação linear entre dois conjuntos de dados, seria justo calcular a correlação, certo?

Essa dedução seria verdadeira se as distribuições das duas amostras seguissem uma distribuição normal. O coeficiente de correlação assume que as distribuições são normais; se ignorarmos essa suposição, o resultado do coeficiente de correlação está errado. Para os testes de hipótese e os intervalos de confiança, também assumimos que a população está distribuída por uma distribuição normal.

Como todos os testes de hipóteses que envolvem estatísticas, é importante ter um grande volume de dados para obter resultados estatisticamente significativos. Podemos rejeitar erroneamente uma hipótese nula porque a amostra é pequena. Além disso, também é importante que esta amostra tenha alguns casos extremos (outliers, em inglês) para dar consistência ao resultado do teste.

Procedimento de teste

O procedimento das próximas etapas.

Hipótese

O primeiro passo será verificar se as duas amostras têm a mesma distribuição. Para fazer isso, realizamos um teste de hipótese assumindo que ambas as amostras têm a mesma distribuição contra a hipótese alternativa de que são diferentes.

Estatístico

Trabalhamos com as funções de distribuição cumulativa de duas amostras, F1(x) e F2(x):

Não entrar em pânico! Analisamos a fórmula acima com calma:

  • A parte importante da fórmula é o sinal de diferença (-). Estamos procurando diferenças verticais nas distribuições. Portanto, iremos subtrair ambas as funções de distribuição cumulativa.
  • O operador "max". Estamos interessados ​​em encontrar a maior ou a diferença máxima para ver como as duas distribuições podem ser diferentes.
  • O valor absoluto. Usamos o valor absoluto para que a ordem dos operadores não altere o resultado. Em outras palavras, não importa qual F (x) tem o sinal negativo:

Valor crítico

Para grandes amostras, há uma aproximação do valor crítico para K-S que depende do nível de significância (%):

Onde1 e n2 são o tamanho da amostra para a amostra F1(x) e F2(x) respectivamente.

Alguns valores críticos calculados:

Regra de rejeição

Aplicativo

Muitas vezes, queremos testar se duas distribuições são suficientemente diferentes uma da outra quando queremos construir cenários de previsão (trabalhamos com duas amostras) ou quando queremos avaliar qual distribuição se ajusta melhor aos dados (trabalhamos com apenas uma amostra).