Outliers em análises estatísticas são valores extremos que não parecem se encaixar na maioria de um conjunto de dados. Se não forem removidos, esses valores extremos podem ter um grande efeito em quaisquer conclusões que possam ser tiradas dos dados em questão, porque podem distorcer os coeficientes de correlação e as linhas de melhor ajuste na direção errada. O SPSS é um dos vários programas de software de análise estatística que podem ser usados para interpretar um conjunto de dados e identificar e remover valores discrepantes.
Análise exploratória de dados
Etapa 1
Clique em "Analisar". Selecione “Estatísticas Descritivas” seguido de “Explorar”.
Etapa 2
Arraste e solte as colunas que contêm os dados da variável dependente na caixa denominada "Lista de dependentes". Clique OK."
Etapa 3
Remova quaisquer discrepâncias identificadas pelo SPSS nos gráficos de caule e folha ou gráficos de caixa excluindo os pontos de dados individuais. Como alternativa, você pode configurar um filtro para excluir esses pontos de dados.
Etapa 4
Selecione "Dados" e depois "Selecionar Casos" e clique em uma condição que tenha valores discrepantes que você deseja excluir. Determine um valor para essa condição que exclua apenas os valores discrepantes e nenhum dos pontos de dados não periféricos.
Etapa 5
Escolha "Se a condição for satisfeita" na caixa "Selecionar" e clique no botão "Se" logo abaixo dela. Insira a regra para excluir valores discrepantes que você determinou na etapa anterior na caixa no canto superior direito. Por exemplo, se você estivesse excluindo medidas acima de 74,5 polegadas da condição "altura", você inseriria "altura <=74,5". Clique em "Continuar" e "OK" para ativar o filtro.
Análise de regressão
Etapa 1
No menu "Analisar", selecione "Regressão" e depois "Linear". Selecione as variáveis dependentes e independentes que deseja analisar.
Etapa 2
Clique em "Salvar" e selecione "Distância do cozinheiro". Os valores calculados para a distância de Cook serão salvos em seu arquivo de dados como variáveis rotuladas como "COO-1".
Etapa 3
Execute um boxplot selecionando “Gráficos” seguido de “Boxplot”. Clique em “Simples” e selecione “Resumos de Variáveis Separadas”. Digite "COO-1" na caixa "Caixas representam" e, em seguida, digite um ID ou nome para identificar os casos na caixa "Etiquetar casos por".
Etapa 4
Aumente o boxplot no arquivo de saída clicando duas vezes nele. Anote os casos que estão além das linhas pretas - esses são seus valores discrepantes. Você pode optar por remover todos os outliers ou apenas os outliers extremos, que são marcados por uma estrela (*).
Etapa 5
Volte para o arquivo de dados e localize os casos que precisam ser apagados. Trabalhando de baixo para cima, destaque o número na extrema esquerda, na coluna cinza, para que toda a linha seja selecionada. Clique em “Editar” e selecione “Limpar”. Repita esta etapa para cada outlier que você identificou no boxplot.
Aviso
Ao apagar casos na Seção 2, etapa 5, sempre trabalhe na parte inferior do arquivo de dados movendo-se para cima porque os números de ID mudam quando você apaga um caso. Se você trabalhar de cima para baixo, acabará apagando os casos errados.