O Excel é uma ferramenta poderosa para análise de dados, quer você esteja trabalhando com uma relação simples entre uma variável independente e uma variável dependente ou haja várias variáveis independentes a serem consideradas. Aprender sobre como realizar uma análise multivariada no Excel – na forma de regressão múltipla – e interpretar os resultados é essencial se você tiver dados complicados para trabalhar. A boa notícia é que o Excel está bem configurado para lidar com essas tarefas, e você só precisa aprender como uma função funciona para começar a entender seus dados.
O que é regressão múltipla?
A regressão múltipla é uma maneira de relacionar várias variáveis independentes a uma única variável dependente, encontrando uma equação que descreve como a variável em questão muda com cada uma delas. Uma ferramenta mais básica, mas semelhante, é a regressão linear, que visa investigar a ligação entre uma variável independente, como a obesidade, em uma variável dependente como o risco de câncer, mas as coisas raramente são tão diretas. Continuando com o exemplo, o número de cigarros fumados por dia também está relacionado ao risco de câncer, assim como a quantidade de álcool que você bebe. Para chegar a uma previsão confiável do risco de câncer para um indivíduo, você precisa levar todos esses fatores (e mais) em consideração.
A forma geral da equação usada para regressões múltiplas é:
S ^ =
um +
b x +
b x +
b x …
Então o
S ^ é o valor esperado para a observação, o
b e assim por diante representam a inclinação da relação de linha reta entre
x e
S ^ e o
x e assim por diante são as variáveis incluídas na análise. O
um informa o ponto do
y -interceptar. Uma regressão múltipla envolve a escolha de valores dos coeficientes (
b e assim por diante) que minimizam a diferença entre o valor esperado
Y ^ e o valor observado
Y , oferecendo o melhor ajuste entre o modelo e os dados.
O que uma regressão múltipla diz a você?
As regressões múltiplas colocam valores numéricos na associação entre uma infinidade de variáveis e um resultado, para que você possa usá-lo para previsões, para estimar as contribuições relativas das diferentes variáveis para o resultado ou para alguns outros propósitos, como selecionar as variáveis mais relevantes para usar em um modelo matemático.
Por exemplo, digamos que você tenha dados sobre os preços das casas em uma determinada cidade (sua variável dependente), juntamente com informações como se tem piscina, quantos metros quadrados ocupa, quantos quartos tem, quantos banheiros tem , e quantas garagens tem. Uma regressão múltipla permitiria que você analisasse como cada um desses fatores está relacionado ao preço da casa, então – depois de analisar como eles se relacionam com o preço – você pode usar sua equação para prever o preço de uma casa com base nesses pontos sozinho.
Você também pode usar esse tipo de análise de regressão no Excel para ver como um fator específico de muitos – como se a casa tem uma piscina – afeta a variável dependente (preços da casa) se todas as outras variáveis permanecerem constantes. Se você converter os coeficientes (chamados "coeficientes de regressão parcial") em coeficientes de regressão parcial padrão, que representam quantos desvios padrão
Y mudaria se você alterasse a variável correspondente em um desvio padrão, a equação também informa quais fatores são mais importantes na determinação do resultado.
Como fazer uma regressão múltipla no Excel
Você pode realizar uma regressão multivariada no Excel usando uma função interna que pode ser acessada por meio da
Análise de dados ferramenta em
Dados guia e a
Análise grupo. Clique em
Análise de dados e encontre a opção para
regressão na janela que aparece, destaque-a e clique em
OK . Clique nas
selecionar células ícone ao lado do
Input Y Range campo e, em seguida, selecione a coluna que contém os resultados para sua variável dependente. Em seguida, faça o mesmo para o
Intervalo X de entrada campo, mas selecione as várias colunas para suas variáveis independentes. Essas colunas devem estar próximas umas das outras, portanto, se não estiverem, você deve movê-las antes de produzir a regressão.
A janela Regressão tem uma variedade de opções adicionais que você pode selecionar para adaptar o processo às suas necessidades. Por exemplo, você pode definir um nível de confiança diferente de 95%, se desejar, optar por exibir os resíduos e especificar onde a saída é colocada em sua pasta de trabalho. Esta última opção é definida automaticamente como
Nova folha de trabalho, para que os resultados sejam exibidos em uma nova planilha, mas você pode alterar essa ou qualquer outra opção para atender às suas necessidades. Além disso, verifique os
Rótulos box se as colunas de suas variáveis independentes tiverem rótulos na parte superior, para que sejam exibidos na saída.
Clique em
OK para gerar sua análise de regressão no Excel e ser levado para a nova planilha.
A saída de regressão do Excel
Existem três seções principais para a saída que você recebe depois de fazer uma regressão múltipla no Excel:estatísticas de regressão, ANOVA e detalhes sobre a linha de regressão estimada. As estatísticas de regressão incluem o coeficiente de correlação múltipla ("Múltiplo R") que mostra a direção e a força da correlação, de -1 a +1. O coeficiente de determinação, "R quadrado", informa qual porcentagem (como um decimal) da variação na variável dependente é explicada pelas variáveis independentes. O "R quadrado ajustado" fornece uma indicação do poder explicativo, mas não é fácil de interpretar, e o "Erro padrão" fornece uma medida da variação entre os resultados observados e sua linha de regressão.
A seção ANOVA contém informações estatísticas sobre o valor da variação explicada pela linha de regressão, com "SS Regression" informando o valor explicado pela linha e "SS Residual" representando o valor não explicado. As seções "MS" significam "Mean Square" e a "F Statistic" é a estatística de teste usada para testar um resultado significativo, com a seção "Significance F" fornecendo o valor P.
Finalmente, a última seção fala sobre as características da linha de regressão estimada, em particular, os valores dos coeficientes, se eles estão significativamente ligados à variável dependente e a quantidade de variação que pode haver neles. Coeficientes positivos mostram uma relação positiva entre a variável em questão e a variável dependente, portanto, quando um aumenta, o outro também. Valores negativos significam que a variável dependente diminui à medida que a variável independente aumenta. Portanto, se o coeficiente de "metragem quadrada" em uma regressão múltipla de preços de casas for 300, isso significa que um metro quadrado adicional de espaço aumenta o custo da casa em US$ 300 em média.
Suposições e limitações da regressão múltipla
É importante lembrar que a regressão múltipla é apenas uma ferramenta e, como a maioria das ferramentas, você só pode usá-la em algumas circunstâncias, e há algumas coisas que ela simplesmente não pode fazer.
Uma das limitações mais importantes é que é difícil concluir a causalidade com base nos resultados. Por exemplo, se você tiver uma regressão múltipla com os danos causados por um incêndio e muitos fatores potencialmente relevantes, provavelmente encontrará uma ligação significativa entre o número de bombeiros presentes e os danos causados. Isso não significa que os bombeiros
causaram o dano porque outro fator como o tamanho do incêndio não incluído no modelo poderia explicar ambas as observações.
Dois pressupostos importantes de uma análise multivariada em Excel deste tipo são os pressupostos de linearidade e normalidade. Você está assumindo uma relação linear entre as variáveis dependentes e independentes, portanto, verifique se é provável que isso seja válido antes de realizar a análise. Você pode observar a relação entre cada variável individualmente para verificar, mas essa não é uma estratégia perfeita. Da mesma forma, o teste assume que as variáveis são normalmente distribuídas, portanto, você deve verificar a normalidade dos resultados de cada uma antes de realizar o teste.