Estatística

Aula

Redução dos dados: identificando outliers

, editado , Comment regular icon0 comments

Você possui um conjunto de dados e acha estranho alguns pontos dentro dele? Acredita que aqueles pontos não deviam fazer parte ou que foram coletados errados? Talvez eles sejam outliers!

Edit Article

Introdução

A tradução direto do termo outlier é "fora da reta". Outlier é todo dado que é considerado fora da reta, em outras palavras, obervações contaminantes, estranhas, extremas ou aberrantes para aquele conjunto de dados.

> As observações que apresentam um grande afastamento das restantes ou são inconsistentes com elas são habitualmente designadas por outliers.

O que é um outlier na vida real?

Em muitos casos as razões da sua existência determinam as formas como devem ser tratadas. Assim, as principais causas que levam ao aparecimento de outliers são:

Ad

- Erros de medição;

- Erros de execução;

- Variabilidade inerente dos elementos da população

Permitem analisar:

- Detecção de fraudes. [3] (lei de Benford [4])

- Comportamento de gastos de consumidores.

- Em análises médicas (resultados não esperados de tratamentos).

- Pesquisa farmacêutica.

- Marketing.

O que fazer com outliers?

A preocupação com observações outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente pensava-se que a melhor forma de lidar com este tipo de observações seria através da sua eliminação da análise.

As opiniões não eram unânimes: uns defendiam a rejeição das observações “inconsistentes com as restantes”, enquanto outros afirmavam que as observações nunca deveriam ser rejeitadas simplesmente por parecerem inconsistentes com os restantes dados e que todas as observações deviam contribuir com igual peso para o resultado final.

Como identificar um outlier

A identificação de outlier pode passar por três fases:

A fase inicial é a da identificação das observações que são potencialmente aberrantes. A identificação de outliers consiste na detecção, com métodos subjectivos, das observações surpreendentes. A identificação é feita, geralmente, por análise gráfica ou, no caso de um número de dados ser pequeno, por observação directa dos mesmos. São assim identificadas as

observações que têm fortes possibilidades de virem a ser designadas por outliers.

Na segunda fase, tem-se como objectivo a eliminação da subjectividade inerente à fase anterior. Pretende-se saber se as observações identificadas como outliers potenciais o são, efectivamente. São efectuados testes à ou às observações “preocupantes”. Devem ser escolhidos os testes mais adequados para a situação em estudo. As observações suspeitas são

testadas quanto à sua discordância. Se for aceite a hipótese de algumas observações serem outliers, elas podem ser designadas como discordantes. Uma observação diz-se discordante se puder considerar-se inconsistente com os restantes valores depois da aplicação de um critério estatístico objectivo. Muitas vezes o termo discordante é usado como sinónimo de outlier.

Na última fase é necessário decidir o que fazer com as observações discordantes. A maneira mais simples de lidar com essas observações é eliminá-las. Como já foi dito, esta abordagem, apesar de ser muito utilizada, não é aconselhável. Ela só se justifica no caso de os outliers serem devidos a erros cuja correcção é inviável. Caso contrário, as observações consideradas como outliers devem ser tratadas cuidadosamente pois contêm informação relevante sobre características subjacentes aos dados e poderão ser decisivas no conhecimento da população à qual pertence a amostra em estudo.

Para a última fase pode-se utilizar diversos métodos:

- Gráfico de Box

- Modelos de discordância

- Teste de Dixon

- Teste de Grubbs

- Z-scores

- etc...

Para este curso usaremos o método z-scores para identificar Outliers. Para ser considerado um outlier o valor deve ser maior que três desvios-padrões mais a média ou menor que a média menos três desvios padrões. (Regras dos três sigmas [1])

Ad

\[ \text{outlier} < \bar{x} - 3 * \sigma \]

e:

\[ \text{outlier} > \bar{x} + 3 * \sigma \]

Exemplo

Os valores seguintes referem-se às concentrações de nitrito numa amostra de água de um rio: 0.403, 0.410, 0.401 e 0.380. A última observação é suspeita: deverá ser considerada um outlier?

A média para esse conjunto de dados é: 0,398

O desvio padrão para esse conjunto de dados é: 0,011

A média mais três desvios padrões é igual a 0,432. Em outras palavras, qualquer valor acima de 0,432 é considerado Outlier.

A média menos três desvios padrões é igual a 0,364. Em outras palavras, qualquer valor abaixo de 0,364 é considerado Outlier.

Como não há nenhum valor nem acima nem abaixo de três desvios padrões, não há outliers para esse conjunto de dados.

Exercícios

1) Os dados que se seguem referem-se à precipitação (em mm) caída num determinada cidade durante 5 meses: 53.5, 61.5, 62.3, 64.9, 40.6. O desvio padrão já foi calculado e foi de 8,84. Algum dos valores referidos anteriormente pode ser considerado um outlier? No sexto mês o valor da precipitação foi de 30 mm, ele é um outlier?

2) Os valores seguintes referem-se à produção de trigo: 12.0, 12.4, 17.5, 11.8, 14.0, 12.8, 14.0, 13.5, 12.6, 13.0, 12.6, 12.7. Seu desvio padrão é de 1,38. Algum dos valores referidos anteriormente pode ser considerado um outlier?

3) Considere os seguintes tempos de hemodiálise (em meses) em 14 doentes transplantados: 51, 24, 55, 75, 24, 27, 22, 23, 48, 18, 96, 24, 26 e 35. Seu desvio padrão é de 22,38. Verifique se alguma destas observações pode ser considerada um outlier.

Gabarito

1) Não. Sim.

2) Sim, o 17.5.

3) Não.

Referências

[1] https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule

[2] http://www.estgv.ipv.pt/PaginasPessoais/psarabando/CET%20%20Ambiente%202008-2009/Slides/8.%20Outliers.pdf

[3] https://www.sciencedirect.com/science/article/pii/S1467089515300324

[4] https://en.wikipedia.org/wiki/Benford%27s_law