Introdução
A tradução direto do termo outlier é ).push({});
Klassenzimmer
, Aktualisiert , 0 comments
Você possui um conjunto de dados e acha estranho alguns pontos dentro dele? Acredita que aqueles pontos não deviam fazer parte ou que foram coletados errados? Talvez eles sejam outliers!
Pro Leon
- Erros de medição;
- Erros de execução;
- Variabilidade inerente dos elementos da população
Permitem analisar:
- Detecção de fraudes. [3] (lei de Benford [4])
- Comportamento de gastos de consumidores.
- Em análises médicas (resultados não esperados de tratamentos).
- Pesquisa farmacêutica.
- Marketing.
A preocupação com observações outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente pensava-se que a melhor forma de lidar com este tipo de observações seria através da sua eliminação da análise.
As opiniões não eram unânimes: uns defendiam a rejeição das observações “inconsistentes com as restantes”, enquanto outros afirmavam que as observações nunca deveriam ser rejeitadas simplesmente por parecerem inconsistentes com os restantes dados e que todas as observações deviam contribuir com igual peso para o resultado final.
A identificação de outlier pode passar por três fases:
A fase inicial é a da identificação das observações que são potencialmente aberrantes. A identificação de outliers consiste na detecção, com métodos subjectivos, das observações surpreendentes. A identificação é feita, geralmente, por análise gráfica ou, no caso de um número de dados ser pequeno, por observação directa dos mesmos. São assim identificadas as
observações que têm fortes possibilidades de virem a ser designadas por outliers.
Na segunda fase, tem-se como objectivo a eliminação da subjectividade inerente à fase anterior. Pretende-se saber se as observações identificadas como outliers potenciais o são, efectivamente. São efectuados testes à ou às observações “preocupantes”. Devem ser escolhidos os testes mais adequados para a situação em estudo. As observações suspeitas são
testadas quanto à sua discordância. Se for aceite a hipótese de algumas observações serem outliers, elas podem ser designadas como discordantes. Uma observação diz-se discordante se puder considerar-se inconsistente com os restantes valores depois da aplicação de um critério estatístico objectivo. Muitas vezes o termo discordante é usado como sinónimo de outlier.
Na última fase é necessário decidir o que fazer com as observações discordantes. A maneira mais simples de lidar com essas observações é eliminá-las. Como já foi dito, esta abordagem, apesar de ser muito utilizada, não é aconselhável. Ela só se justifica no caso de os outliers serem devidos a erros cuja correcção é inviável. Caso contrário, as observações consideradas como outliers devem ser tratadas cuidadosamente pois contêm informação relevante sobre características subjacentes aos dados e poderão ser decisivas no conhecimento da população à qual pertence a amostra em estudo.
Para a última fase pode-se utilizar diversos métodos:
- Gráfico de Box
- Modelos de discordância
- Teste de Dixon
- Teste de Grubbs
- Z-scores
- etc...
Para este curso usaremos o método z-scores para identificar Outliers. Para ser considerado um outlier o valor deve ser maior que três desvios-padrões mais a média ou menor que a média menos três desvios padrões. (Regras dos três sigmas [1])
Ad
\[ \text{outlier} < \bar{x} - 3 \sigma \]
e:
\[ \text{outlier} > \bar{x} + 3 \sigma \]
A média para esse conjunto de dados é: 0,398
O desvio padrão para esse conjunto de dados é: 0,011
A média mais três desvios padrões é igual a 0,432. Em outras palavras, qualquer valor acima de 0,432 é considerado Outlier.
A média menos três desvios padrões é igual a 0,364. Em outras palavras, qualquer valor abaixo de 0,364 é considerado Outlier.
Como não há nenhum valor nem acima nem abaixo de três desvios padrões, não há outliers para esse conjunto de dados.
1) Os dados que se seguem referem-se à precipitação (em mm) caída num determinada cidade durante 5 meses: 53.5, 61.5, 62.3, 64.9, 40.6. O desvio padrão já foi calculado e foi de 8,84. Algum dos valores referidos anteriormente pode ser considerado um outlier? No sexto mês o valor da precipitação foi de 30 mm, ele é um outlier?
2) Os valores seguintes referem-se à produção de trigo: 12.0, 12.4, 17.5, 11.8, 14.0, 12.8, 14.0, 13.5, 12.6, 13.0, 12.6, 12.7. Seu desvio padrão é de 1,38. Algum dos valores referidos anteriormente pode ser considerado um outlier?
3) Considere os seguintes tempos de hemodiálise (em meses) em 14 doentes transplantados: 51, 24, 55, 75, 24, 27, 22, 23, 48, 18, 96, 24, 26 e 35. Seu desvio padrão é de 22,38. Verifique se alguma destas observações pode ser considerada um outlier.
1) Não. Sim.
2) Sim, o 17.5.
3) Não.
[1] https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule
[2] http://www.estgv.ipv.pt/PaginasPessoais/psarabando/CET%20%20Ambiente%202008-2009/Slides/8.%20Outliers.pdf
[3] https://www.sciencedirect.com/science/article/pii/S1467089515300324
[4] https://en.wikipedia.org/wiki/Benford%27s_law
— Kommentare0
Sei der erste der kommentiert