Interessante

Análise de regressão linear

Análise de regressão linear

A regressão linear é uma técnica estatística usada para aprender mais sobre a relação entre uma variável independente (preditora) e uma variável dependente (critério). Quando você possui mais de uma variável independente em sua análise, isso é chamado de regressão linear múltipla. Em geral, a regressão permite que o pesquisador faça a pergunta geral "Qual é o melhor preditor de ...?"

Por exemplo, digamos que estávamos estudando as causas da obesidade, medidas pelo índice de massa corporal (IMC). Em particular, queríamos ver se as seguintes variáveis ​​eram preditores significativos do IMC de uma pessoa: número de refeições de fast-food comidas por semana, número de horas de televisão assistida por semana, número de minutos gastos em exercícios por semana e IMC dos pais . A regressão linear seria uma boa metodologia para esta análise.

A Equação de Regressão

Quando você está conduzindo uma análise de regressão com uma variável independente, a equação de regressão é Y = a + b * X, onde Y é a variável dependente, X é a variável independente, a é a constante (ou interceptação) eb é a inclinação da linha de regressão. Por exemplo, digamos que o GPA seja melhor previsto pela equação de regressão 1 + 0,02 * QI. Se um aluno tivesse um QI de 130, seu GPA seria 3,6 (1 + 0,02 * 130 = 3,6).

Quando você está conduzindo uma análise de regressão na qual possui mais de uma variável independente, a equação de regressão é Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Por exemplo, se quiséssemos incluir mais variáveis ​​em nossa análise GPA, como medidas de motivação e autodisciplina, usaríamos essa equação.

R-Square

O quadrado R, também conhecido como coeficiente de determinação, é uma estatística comumente usada para avaliar o ajuste do modelo de uma equação de regressão. Ou seja, quão boas são todas as suas variáveis ​​independentes em prever sua variável dependente? O valor do quadrado R varia de 0,0 a 1,0 e pode ser multiplicado por 100 para obter uma porcentagem de variação explicada. Por exemplo, voltando à nossa equação de regressão GPA com apenas uma variável independente (QI) ... Digamos que nosso quadrado R para a equação fosse 0,4. Podemos interpretar isso como significando que 40% da variação no GPA é explicada pelo QI. Se adicionarmos nossas outras duas variáveis ​​(motivação e autodisciplina) e o quadrado R aumentar para 0,6, isso significa que QI, motivação e autodisciplina explicam juntos 60% da variação nas pontuações do GPA.

As análises de regressão geralmente são feitas usando software estatístico, como SPSS ou SAS e, portanto, o quadrado R é calculado para você.

Interpretação dos coeficientes de regressão (b)

Os coeficientes b das equações acima representam a força e a direção do relacionamento entre as variáveis ​​independentes e dependentes. Se olharmos para a equação GPA e QI, 1 + 0,02 * 130 = 3,6, 0,02 é o coeficiente de regressão para a variável QI. Isso nos diz que a direção do relacionamento é positiva e, à medida que o QI aumenta, o GPA também aumenta. Se a equação fosse 1 - 0,02 * 130 = Y, isso significaria que a relação entre QI e GPA era negativa.

Suposições

Existem várias suposições sobre os dados que devem ser atendidos para realizar uma análise de regressão linear:

  • Linearidade: Supõe-se que a relação entre as variáveis ​​independentes e dependentes seja linear. Embora essa suposição nunca possa ser totalmente confirmada, observar um gráfico de dispersão de suas variáveis ​​pode ajudar a fazer essa determinação. Se houver uma curvatura no relacionamento, considere transformar as variáveis ​​ou permitir explicitamente componentes não lineares.
  • Normalidade: Supõe-se que os resíduos de suas variáveis ​​sejam normalmente distribuídos. Ou seja, os erros na previsão do valor de Y (a variável dependente) são distribuídos de uma maneira que se aproxima da curva normal. Você pode observar histogramas ou gráficos de probabilidade normais para inspecionar a distribuição de suas variáveis ​​e seus valores residuais.
  • Independência: Supõe-se que os erros na predição do valor de Y sejam todos independentes um do outro (não correlacionados).
  • Homoscedasticidade: Supõe-se que a variação em torno da linha de regressão seja a mesma para todos os valores das variáveis ​​independentes.

Fonte

  • StatSoft: Manual Estatístico Eletrônico. (2011). //www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.