Estatística

Aula

Medidas de associação ou relação: correlação

, editado , Comment regular icon0 comments

Continuamos estudando a relação entre duas variáveis, agora olhando para a correlação

Edit Article

Introdução

Similar à covariância: quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas.

Relação funcional

Como sabemos, o perímetro e o lado de um quadrado estão relacionados. A relação que os liga é perfeitamente definida e pode ser expressa por meio de uma sentença matemática:

\[ 2p = 4l \]

Onde 2p é o perímetro e l é o lado.

Atribuindo-se, então, um valor qualquer a R, é possível determinar exatamente o valor de 2p.

Ad

Consideremos, agora, a relação que existe entre o peso e a estatura de um grupo de pessoas. É evidente que essa relação não é do mesmo tipo da anterior; ela é bem menos precisa. Assim, pode acontecer que a estaturas diferentes correspondam pesos iguais ou que a estaturas iguais correspondam pesos diferentes. Contudo, em média, quanto maior a estatura, maior o peso.

As relações do tipo perímetro - lado são conhecidas como relações funcionais e as do tipo peso- estatura, como relações estatísticas.

Diagrama de dispersão

Consideremos uma amostra aleatória, formada por dez dos 98 alunos de uma classe da faculdade A e pelas notas obtidas por eles em Matemática e Estatística:

Nota de matemáticaNota de estatística
5,06,0
8,09,0
7,08,0
10,010,0
6,05,0
7,07,0
9,08,0
3,04,0
8,06,0
2,02,0

Representando, em um sistema coordenado cartesiano ortogonal, os pares ordenados (xi, y), obtemos uma nuvem de pontos que denominamos diagram a de dispersão. Esse diagrama nos fornece uma ideia grosseira, porém útil, da correlação existente que para este caso existe e é positiva.

Image content of the Website

O que é Correlação linear

Como a correlação em estudo tem como "imagem" uma reta ascendente, ela é chamada correlação linear positiva.

Assim, uma correlação é:

- linear positiva se os pontos do diagrama têm como "imagem" uma reta ascendente;

- linear negativa se os pontos têm como "imagem" uma reta descendente;

- não linear se os pontos têm como "imagem" uma curva.

Se os pontos apresentam-se dispersos, não oferecendo uma "imagem" definida, concluímos que não há relação alguma entre as variáveis em estudo.

Temos, então:

Image content of the Website

Como calcular o coeficiente de correlação linear

O instrumento empregado para a medida da correlação linear é o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação (positivo ou negativo).

Faremos uso do coeficiente de correlação de Pearson, que é dado por:

\[ r = \dfrac{\sigma_{x,y}}{\sigma_x · \sigma_y} \]

> O coficiente de correlação é a covariância dividida pelo desvio padrão de cada variável estudada

Outra fórmula seria:

\[ r = \frac{\sum{(x - \bar{x})(y - \bar{y})}}{\sqrt{\sum{(x - \bar{x})^{2}}} · \sqrt{\sum{(y - \bar{y})^{2}}}} \]

Diferente da covariância, onde só podíamos analisar se é positiva ou negativa, o coeficiente de correlação nos garante muito mais informação por ele estar entre -1 e 1, em outras palavras, pertence ao intervalo [-1, +1].

Assim:

a. se a correlação entre duas variáveis é perfeita e positiva, então r = +1 ;

Ad

b. se a correlação é perfeita e negativa, então r = -1;

c. se não há correlação entre as variáveis, então r = O.

Para:

valor de r (+ ou -)interpretação
0 a 19%Correlação muito fraca
20% a 39%Correlação fraca
40% a 59%Correlação moderada
60% a 79%Correlação forte
80% a 100%Correlação muito forte

Propriedades da correlação

1. O coeficiente de correlação independe das unidades de medida das variáveis; é um número adimensional que varia entre –1 e +1, isto é, -1 ≤ r ≤ + 1.

2. O coeficiente de correlação de uma variável e ela mesma é igual a +1.

3. A permutação das variáveis não altera o resultado do coeficiente de correlação, isto é, rXY = rYX.

4. Somando-se ou subtraindo-se uma constante a uma ou a ambas as variáveis, o coeficiente de correlação não se altera.

5. Multiplicando-se ou dividindo-se uma ou ambas as variáveis por uma constante, o coeficiente de correlação não se altera.

Exemplos

Complete o esquema de cálculo do coeficiente de correlação para os valores das variáveis x e y:

xy
124
106
88
1210
1412

A covariância do conjunto de dados é 2,4. Enquanto o desvio padrão da primeira vale 2,04 e da segunda 2,83.

Logo:

\[ r = \frac{2,4}{2,04·2,83} = 0,41 = 41\% = \text{correlação moderada} \]

Exercícios

1) Desenhe os diferentes diagramas de dispersão que podem ser encontrados para as seguintes correlações: correlação positiva perfeita, correlação negativa e correlação não-linear.

2) Faça o diagrama de dispersão das seguintes variáveis:

xy
5010
6020
80100
5025

Qual tipo de correlação essas variáveis apresentam?

3) Qual o coeficiente de correlação das variáveis do exercício anterior?

4) Qual o coeficiente de correlação das seguintes variáveis:

xy
1020
305
1515
550

5) Qual o coeficiente de correlação das seguintes variáveis:

xy
101
302
1540
53

6) Davi analisou que a covariância de dois conjuntos de dados era igual a 10, e o desvio padrão de um conjunto tem valor 2 e de outro tem valor 5. Qual o coeficiente de correlação dos dois conjuntos de dados?

7) Mais uma vez, Davi analisou que a covariância de dois conjuntos de dados era igual a 200, e o desvio padrão de um conjunto tem valor 20 e de outro tem valor 40. Mas, depois de já ter feito essa análise, teve que modificar um dos conjuntos de dados, dividindo ele por 10.000. Qual o coeficiente de correlação dos dois conjuntos de dados agora?

Ad

Gabarito

2) Correlação linear positiva

3) 94%

4) -83%

5) 0%

6) 100%

7) 25%