Coeficiente de determinação (R ​​ao quadrado) - 2021

O coeficiente de determinação é a proporção da variância total da variável explicada pela regressão. O coeficiente de determinação, também chamado de R ao quadrado, reflete a qualidade do ajuste de um modelo à variável que ele pretende explicar.

É importante saber que o resultado do coeficiente de determinação oscila entre 0 e 1. Quanto mais próximo de 1 for o seu valor, maior será o ajuste do modelo à variável que procuramos explicar. Por outro lado, quanto mais próximo de zero, menos apertado será o modelo e, portanto, menos confiável será.

Na expressão anterior, temos uma fração. Então, vamos por partes. Primeiro, vamos analisar o numerador, ou seja, a parte superior.

Para quem não conhece a expressão da variância, recomendo que leia o artigo a respeito. Para aqueles que sabem, eles podem perceber que é a expressão da variação, mas com duas diferenças fundamentais.

A primeira diferença é que o Y tem um circunflexo ou o que os professores didaticamente chamam de “chapéu”. O que esse chapéu detalha é que aquele Y é a estimativa de um modelo do que, de acordo com as variáveis ​​explicativas, vale Y, mas não é o valor real de Y, mas uma estimativa de Y.

Em segundo lugar, seria necessário dividir por T. Que, em outros casos, é anotado como N ou número de observações. No entanto, como a fórmula do denominador também o carregaria, removemos os denominadores (parte inferior) de ambas as fórmulas para simplificar a expressão. Assim fica mais fácil trabalhar com ele.

A seguir, vamos realizar a mesma análise com a parte do denominador (parte inferior).

Nesse caso, a única diferença da fórmula de variância original é a ausência de seu denominador. Ou seja, não dividimos por T ou N. Desta forma, uma vez explicadas as duas partes da expressão genérica do R ao quadrado ou coeficiente de determinação, veremos um exemplo.

Coeficiente de variaçãoCoeficiente de correlação linearAnálise de regressão

Interpretação do coeficiente de determinação

Suponha que queremos explicar o número de gols que Cristiano Ronaldo marca com base no número de jogos que ele joga. Partimos do princípio que quanto mais jogos disputados, mais golos ele irá marcar. Os dados referem-se às últimas 8 temporadas. Assim, após extrair os dados, o modelo produz a seguinte estimativa:

Como podemos ver no gráfico, a relação é positiva. Quanto mais jogos disputados, é claro, mais gols ele marca na temporada. O ajuste, com base no cálculo R-quadrado, é 0,835. Isso significa que é um modelo cujas estimativas se ajustam muito bem à variável real. Embora tecnicamente não seja correto, poderíamos dizer algo assim que o modelo explica 83,5% da variável real.

O problema do coeficiente de determinação

O problema do coeficiente de determinação, e a razão pela qual surge o coeficiente de determinação ajustado, é que ele não penaliza a inclusão de variáveis ​​explicativas não significativas. Ou seja, se forem adicionadas ao modelo cinco variáveis ​​explicativas que têm pouca relação com os gols que Cristiano Ronaldo marca em uma temporada, o R ao quadrado aumentará. É por isso que muitos econométricos, estatísticos e matemáticos se opõem ao uso de R ao quadrado como uma medida representativa da bondade do ajuste real.

O coeficiente de determinação ajustado

O coeficiente de determinação ajustado (R ao quadrado ajustado) é a medida que define o percentual explicado pela variância da regressão em relação à variância da variável explicada. Ou seja, igual ao R ao quadrado, mas com diferença: O coeficiente de determinação ajustado penaliza a inclusão de variáveis.

Como já dissemos, o coeficiente de determinação de um modelo aumenta mesmo que as variáveis ​​que incluímos não sejam relevantes. Por se tratar de um problema, para tentar resolvê-lo, o R ao quadrado ajustado é tal que:

Na fórmula, N é o tamanho da amostra ek é o número de variáveis ​​explicativas. Por dedução matemática, quanto mais altos os valores de k, mais longe estará o R ao quadrado ajustado do R ao quadrado normal. Por outro lado, em valores mais baixos de k, quanto mais próxima a fração central estará de 1 e, portanto, o R ao quadrado ajustado e o R ao quadrado normal serão mais semelhantes.

Lembrando que k é o número de variáveis ​​explicativas, deduzimos que não pode ser zero. Se fosse zero, não haveria modelo. No mínimo, teremos que explicar uma variável em termos de outra variável. Como k deve ser pelo menos 1, o R ao quadrado ajustado e o R ao quadrado normal não podem ter o mesmo valor. Além disso, o R-quadrado ajustado será sempre menor do que o R-quadrado normal.

Você vai ajudar o desenvolvimento do site, compartilhando a página com seus amigos

wave wave wave wave wave