Multicolinearidade é a forte relação de dependência linear entre mais de duas variáveis explicativas em uma regressão múltipla que viola a suposição de Gauss-Markov quando é exata.
Em outras palavras, multicolinearidade é a alta correlação entre mais de duas variáveis explicativas.
Enfatizamos que a relação linear (correlação) entre as variáveis explicativas deve ser forte. É muito comum que as variáveis explicativas da regressão sejam correlacionadas. Portanto, deve-se ressaltar que essa relação deve ser forte, mas nunca perfeita, para que seja considerada um caso de multicolinearidade. A relação linear seria perfeita se o coeficiente de correlação fosse 1.
Quando essa relação linear forte (mas não perfeita) ocorre apenas entre duas variáveis explicativas, dizemos que é um caso de colinearidade. Seria multicolinearidade quando a forte relação linear ocorre entre mais de duas variáveis independentes.
A suposição de Gauss-Markov sobre a não multicolinearidade exata define que as variáveis explicativas em uma amostra não podem ser constantes. Além disso, não deve haver relações lineares exatas entre as variáveis explicativas (sem multicolinearidade exata). Gauss-Markov não nos permite a multicolinearidade exata, mas aproxima a multicolinearidade.
Análise de regressãoFormulários
Existem casos muito particulares, geralmente irrealistas, em que as variáveis de regressão são completamente independentes umas das outras. Nestes casos, falamos de exogeneidade das variáveis explicativas. As ciências sociais são geralmente famosas por incorporar a multicolinearidade aproximada em suas regressões.
Multicolinearidade exata
A multicolinearidade exata ocorre quando mais de duas variáveis independentes são uma combinação linear de outras variáveis independentes na regressão.
Problemas
Quando Gauss Markov proíbe a multicolinearidade exata é porque não podemos obter o estimador de Mínimos Quadrados Ordinários (OLS).
Expressando matematicamente o beta sub-i estimado na forma de matriz:
Portanto, se houver multicolinearidade exata, isso fará com que a matriz (X'X) tenha um determinante 0 e, portanto, não seja invertível. Não ser invertível implica não ser capaz de calcular (X'X)-1 e, conseqüentemente, nenhum Beta estimado sub-i.
Multicolinearidade aproximada
A multicolinearidade aproximada ocorre quando mais de duas variáveis independentes não são exatamente (aproximação) uma combinação linear de outras variáveis independentes na regressão.
A variável k representa uma variável aleatória (independente e identicamente distribuída (i.i.d)). A frequência de suas observações pode ser satisfatoriamente aproximada de uma distribuição normal padrão com média 0 e variância 1. Por ser uma variável aleatória, isso implica que em cada observação i, o valor de k será diferente e independente de qualquer valor anterior.
Problemas
Expressando matematicamente em forma de matriz:
Portanto, se houver multicolinearidade aproximada, isso fará com que a matriz (X'X) seja aproximadamente 0 e o coeficiente de determinação muito próximo a 1.
Solução
A multicolinearidade pode ser reduzida eliminando os regressores das variáveis com uma alta relação linear entre elas.
Coeficiente de correlação linear