Um gráfico Q-Q dados exponenciais independentes e randomicamente gerados, (X ~ Exp(1)). Este gráfico Q–Q compara uma amostra de dados no eixo vertical a uma estatística de população no eixo horizontal. Os pontos seguem um forte padrão não linear, sugerindo que os dados não são distribuídos com um padrão normal (X ~ N(0,1)). O deslocamento entre a linha e os pontos sugere que a média dos dados não é 0. A mediana dos pontos pode ser determinada a estar perto de 0,7
Gráfico Q-Q normal comparando dados normais independentes gerados aleatoriamente no eixo vertical a uma população normal padrão no eixo horizontal. A linearidade dos pontos sugere que os dados são normalmente distribuídos

Em estatística, um gráfico Q-Q[1] ("Q" significa quantil) é um gráfico de probabilidades, que é um método gráfico para comparar duas distribuições de probabilidade, traçando seus quantis uns contra os outros. Primeiro, o conjunto de intervalos para os quantis é escolhido. Um ponto (x, y) no gráfico corresponde a um dos quantis da segunda distribuição (coordenada y) plotadas contra o mesmo mesmo quantil da primeira distribuição de (coordenada x). Portanto, a linha é uma curva paramétrica cujo parâmetro é o quantil de cada ponto.

Se as duas distribuições que estão sendo comparadas são semelhantes, os pontos no gráfico Q-Q vão repousar aproximadamente na linha y = x. Se as distribuições são linearmente relacionadas, os pontos no gráfico Q-Q irão repousar aproximadamente em uma linha, mas não necessariamente na linha y = x. Gráficos Q-Q também podem ser usados como meio gráfico de estimativa de parâmetros de dispersão e tendência central em uma família de distribuições.

Um gráfico Q-Q é usado para comparar as formas das distribuições, fornecendo uma exibição gráfica de como as propriedades, tais como medidas de tendência central, dispersão e assimetria são semelhantes ou diferentes nas duas distribuições. Gráficos Q-Q podem ser usados para comparar conjuntos de dados ou distribuições teóricas. O uso de gráficos Q-Q para comparação de duas amostras de dados pode ser visto como uma abordagem não-paramétrica para comparação de suas distribuições subjacentes. Um gráfico Q-Q geralmente é uma abordagem mais poderosa para fazer essa comparação do que a técnica comum de comparação de histogramas das duas amostras, mas requer mais habilidade para interpretar. Gráficos Q-Q são comumente usados para comparar um conjunto de dados com um modelo teórico.[2] Isto pode fornecer uma avaliação de qualidade do ajuste (goodness of fit) que é gráfica, ao invés de reduzir a uma exibição numérica. Gráficos Q-Q também são usados para comparar duas distribuições teóricas entre si. Uma vez que gráficos Q-Q compararam distribuições, não há necessidade de observar os valores como pares, como em um gráfico de dispersão, nem há necessidade mesmo serem iguais o número de valores nos dois grupos a serem comparados.

O termo "gráfico de probabilidades" às vezes, refere-se especificamente a um gráfico Q-Q, e menos comumente o gráfico P-P. O coeficiente de correlação do gráfico de probabilidade é uma grandeza derivada da ideia de gráficos Q-Q, que mede a concordância de uma distribuição ajustada com os dados observados e que às vezes é usada como um meio de ajuste de uma distribuição de dados.

Posições de plotagem

editar

A escolha dos quantis de uma distribuição teórica pode depender do contexto e do propósito. Uma escolha, dada uma amostra de tamanho n, é k / n para k = 1, …, n, pois estes são os quantis que a distribuição amostral analisa. O último deles, n / n, corresponde ao percentil 100 (o valor máximo da distribuição teórica, que às vezes é infinito). Outras opções são o uso de (k − 0.5) / n, ou espaçar os pontos uniformemente na distribuição uniforme, usando k /(n + 1).[3]

Muitas outras escolhas foram sugeridas, tanto formais quanto heurísticas, baseadas em teoria ou simulações. As subseções a seguir discutem algumas delas.

Heurística

editar

Várias fórmulas diferentes foram usadas ou propostas como posições de plotagem. Tais fórmulas têm a forma (ka) / (n + 1 − 2a) para algum valor de a no intervalo de 0 a 1, que dá um intervalo entre k / (n + 1) e (k − 1) / (n − 1)[4] .[5]

As expressões incluem:

  • k / (n + 1)
  • (k − 0,3) / (n + 0,4).[6]
  • (k − 0.3175) / (n + 0.365).[7][nota 1]
  • (k − 0.326) / (n + 0.348).[8]
  • (k − ⅓) / (n + ⅓).[nota 2]
  • (k − 0.375) / (n + 0.25).[nota 3]
  • (k − 0.4) / (n + 0.2).[9]
  • (k − 0.44) / (n + 0.12).[nota 4]
  • (k − 0.5) / n.[11]
  • (k − 0.567) / (n − 0.134).[12]
  • (k − 1) / (n − 1).[nota 5]

Para tamanho de amostra com n grande, há pouca diferença entre essas várias expressões.

Um exemplo: Comparando uma amostra com a distribuição normal

editar

Existem diversas distribuições populacionais teóricas, cada uma com características próprias. Os gráficos Q-Q podem utilizar qualquer uma delas, ou duas delas. De maneira mais geral, o teste de Shapiro–Wilk usa os valores esperados das estatísticas de ordem da distribuição dada; o gráfico e a linha resultantes produzem a estimativa de mínimos quadrados generalizados para localização e dispersão (da intercepto e inclinação da linha ajustada).[13]

O uso comum de gráficos Q–Q é comparar a distribuição de uma amostra com uma distribuição teórica, como a distribuição normal padrão N(0,1).[14]

Para exemplificar a construção de uma gráfico Q-Q, a partir desse ponto são apresentadas as funções matemáticas relacionadas com a distribuição normal, que é uma das distribuições estatísticas mais utilizadas.

Sendo a função de densidade de probabilidade da distribuição normal (com média e desvio-padrão ):

f.d.p.

A função é a função erro, utilizada para se integrar a função da distribuição normal padrão, com e :

Sendo , portanto é complementar à função erro .

Sendo A um conjunto de dados amostrais de tamanho n, ordenado crescentemente, no qual estão contidos os valores a1, a2, ...,ak, ..., an, que apresentam média e desvio-padrão . Serão calculados quantis correspondentes q1, q2, ...,qk, ..., qn.

Seja a função distribuição acumulada (f.d.a.) da distribuição normal padrão. Então a função distribuição acumulada para o k-ésimo elemento é:

Outra forma de se calcular a f.d.a. é:

A inversa da função erro complementar é:

que se relaciona com inversa da função erro[15]:

Escolhendo uma regra para um gráfico Q-Q bicaudal

editar

As fórmulas das posições de plotagem (descritas numa seção acima) são definidas para o intervalo [0,1]. Mas para as posições de plotagem abrangerem o domínio [-1,1] é necessário multiplicar a fórmula por dois, e subtrair uma unidade. Ou seja, 2((ka) / (n + 1 − 2a)) -1. Essa fórmula garante que a mediana (percentil 50) recaia exatamente quando a f.d.a. for 1/2 e .

Coordenada

A tunagem[16] das posições de plotagem para a distribuição normal

editar

Acima, foi fixado o ponto central da curva (percentil 50). O valor de a altera a dispersão dos quantis, sem alterar a posição do ponto central. É necessário garantir que a dispersão dos quantis seja idêntica à dispersão dos percentis. Para isso ocorrer, precisamos definir o valor de a, que é o mesmo para todos os percentis diferentes de percentil 50.

Segundo Wolfram,[17] o percentil "p" é calculado na posição .

Assim, é escolhido arbitrariamente o terceiro quartil, ou percentil 75, cuja f.d.a. é 3/4, situação em que o escore-z[18] e . Para se encontrar o valor de a da regra bicaudal das posições de plotagem utilizamos:

e

Substituindo (2) em (1):

Assim, neste exemplo, atribui-se arbitrariamente a regra bicaudal das posições de plotagem ao percentil 75, fazendo:

Resolvendo a equação acima, encontra-se que a=0, que corresponde:

Coordenada [nota 6]

Coordenada

Interpretação

editar

Os pontos plotados em um gráfico Q–Q são sempre crescentes quando vistos da esquerda para a direita. Se as duas distribuições comparadas forem idênticas, o gráfico Q–Q segue a linha de 45° y = x. Se as duas distribuições concordarem depois de transformar linearmente os valores em uma das distribuições, então o gráfico Q–Q segue alguma linha, mas não necessariamente a linha y = x . Se a inclinação geral do gráfico Q–Q for mais plana que a linha y = x, a distribuição plotada no eixo horizontal é mais disperso do que a distribuição plotada no eixo vertical. Por outro lado, se a inclinação geral do gráfico Q–Q for mais íngreme do que a linha y = x, a distribuição plotada no eixo vertical é mais dispersa do que a distribuição plotada no eixo horizontal. Os gráficos Q–Q são frequentemente arqueados, ou em forma de "S", indicando que uma das distribuições é mais assimétrica que a outra, ou que uma das distribuições tem caudas mais pesadas que a outra.

A intercepção e inclinação de uma regressão linear entre os quantis dá medidarelativas da localização e da dispersão das amostras. Se a mediana da distribuição plotada no eixo horizontal for 0, a interceptação de uma linha de regressão é uma medida de localização e a inclinação é uma medida de dispersão. A distância entre as medianas é outra medida de localização relativa refletida em um gráfico Q–Q. O "coeficiente de correlação do gráfico de probabilidade" (gráfico PPCC) é o coeficiente de correlação entre os quantis. Quanto mais próximo o coeficiente de correlação estiver de 1, mais próximas as distribuições estarão de serem versões deslocadas e escalonadas uma das outra.

Notas

editar
  1. Observe que isso também usa uma expressão diferente para o primeiro e o último pontos. [1] cita o trabalho original de (Filliben 1975). Esta expressão é uma estimativa das medianas de U(k).
  2. Uma fórmula simples (e fácil de lembrar) para traçar posições; usado em BMDP statistical package.
  3. Esta é a aproximação mais antiga de (Blom 1958) e é a expressão usada em MINITAB.
  4. Esta posição de plotagem foi usada por Irving I. Gringorten[10] para traçar pontos em testes para a distribuição de Gumbel.
  5. Usados por Filliben (1975), esses posições de plotagem são iguais aos modos de U(k).
  6. Para evitar vieses de análise no gráfico Q-Q, o valor de a da regra bicaudal das posições de plotagem deve ser calculado para cada distribuição estatística teórica, com a finalidade de que cada quantil recaia exatamente no percentil correspondente.

Referências

editar
  1. Wilk, M.B.; Gnanadesikan, R. (1968). «Probability plotting methods for the analysis of data». Biometrika Trust. 55 (1): 1–17. JSTOR 2334448. PMID 5661047. doi:10.1093/biomet/55.1.1 
  2. Gnanadesikan, R. (1977). Methods for Statistical Data Analysis of Multivariate Observations. New Brunswick, New Jersey: John Wiley & Sons, Inc. p. 199 
  3. Weibull, Waloddi (1939), «The Statistical Theory of the Strength of Materials», IVA Handlingar, Royal Swedish Academy of Engineering Sciences (151) 
  4. Madsen, H.O.; et al. (1986), Methods of Structural Safety 
  5. Makkonen, L. (2008), «Bringing closure to the plotting position controversy», Communications in Statistics – Theory and Methods, 37 (3): 460–467, doi:10.1080/03610920701653094 
  6. Benard & Bos-Levenbach (1953). The plotting of observations on probability paper. Statistica Neederlandica, 7: 163-173. doi:10.1111/j.1467-9574.1953.tb00821.x. (em neerlandês)
  7. «1.3.3.21. Normal Probability Plot». itl.nist.gov. Consultado em 16 de fevereiro de 2022 
  8. Distribution free plotting position, Yu & Huang
  9. Cunnane (1978).
  10. Gringorten, Irving I. (1963). «A plotting rule for extreme probability paper». Journal of Geophysical Research (em inglês). 68 (3): 813–814. Bibcode:1963JGR....68..813G. ISSN 2156-2202. doi:10.1029/JZ068i003p00813 
  11. Hazen, Allen (1914), «Storage to be provided in the impounding reservoirs for municipal water supply», Transactions of the American Society of Civil Engineers (77): 1547–1550 
  12. Larsen, Curran & Hunt (1980).
  13. Testing for Normality, by Henry C. Thode, CRC Press, 2002, ISBN 978-0-2039-1089-4, p. 31
  14. (Thode 2002, Section 2.2.2, Quantile-Quantile Plots, p. 21)
  15. «Inverse error function». Consultado em 24 de outubro de 2022 
  16. https://pt.wiktionary.org/wiki/tunagem
  17. Weisstein, Eric W. Percentile. MathWorld -- A Wolfram Web Resource. Consultado em 3/4/2007.
  18. Larson, Ron; Farber, Betsy (2004). Estatística aplicada. [S.l.]: Pearson Education do Brasil. 1 páginas 


Conexões externas

editar
O Commons possui uma categoria com imagens e outros ficheiros sobre Gráfico Q-Q

📚 Artikel Terkait di Wikipedia

Diagrama de caixa

descritiva, diagrama de caixa, diagrama de extremos e quartis, boxplot ou box plot é uma ferramenta gráfica para representar a variação de dados observados

Estimativa de densidade kernel

densidade kernel estimada usando o kernel normal é calculado usando kde que chama bkde de KernSmooth. O função plot permite a adição de pontos de dados como

Gráfico de dispersão

anos 1950. Em First (?) Occurrence of Common Terms in Statistics and Probability, H. A. David (2001) credita A. K. Kurtz e H. A. Edgerton o primeiro uso

Black-Scholes

equivalent exponential martingale probability measure (numéraire = stock) and the equivalent martingale probability measure (numéraire = risk free asset)

Bibliografia de Ronald Fisher

139–147. JSTOR 2548482. doi:10.2307/2548482  «Review of A Treatise on Probability by J.M. Keynes». Eugenics Review. 14: 46–50. 1923  (com WA Mackenzie)

Efeitos das mudanças climáticas nos oceanos

junho de 2020). «Global increase in major tropical cyclone exceedance probability over the past four decades». Proceedings of the National Academy of Sciences

Lei do logaritmo iterado

1929. (At the Göttinger DigitalisierungsZentrum web site) Leo Breiman. Probability. Original edition published by Addison-Wesley, 1968; reprinted by Society

Análise topológica de dados

Mileyko, Yuriy; Mukherjee, Sayan; Harer, John (10 de novembro de 2011). «Probability measures on the space of persistence diagrams». Inverse Problems. 27