Teste de bondade de ajuste Chi-Square Quando um analista tenta ajustar um modelo estatístico aos dados observados, ele ou ela pode se perguntar o quão bem o modelo realmente reflete os dados. Quão próximos são os valores observados para aqueles que seriam esperados no modelo ajustado. Um teste estatístico que aborda esta questão é o teste do chi-square dobity of fit. Este teste é comumente usado para testar associação de variáveis em tabelas bidirecionais (ver Tabelas de Duas Vias e Teste Qui-Quadrado), onde o modelo assumido de independência é avaliado em relação aos dados observados. Em geral, a estatística do teste do qui-quadrado é da forma. Se a estatística de teste calculada for grande, os valores observados e esperados não são próximos e o modelo é um ajuste ruim aos dados. Um novo jogo de casino envolve o rolamento de 3 dados. Os ganhos são diretamente proporcionais ao número total de seis rolos. Suponha que um jogador jogue o jogo 100 vezes, com as seguintes contagens observadas: o cassino fica desconfiado do jogador e deseja determinar se os dados são justos. O que eles concluem Se um dado é justo, esperamos que a probabilidade de rodar um 6 em qualquer lance seja de 16. Assumindo que os 3 dados são independentes (o rolo de um dado não deve afetar o rolo dos outros), nós Pode assumir que o número de seis em três rolos é distribuído Binomial (3,16). Para determinar se os dados dos jogadores são justos, podemos comparar seus resultados com os resultados esperados nesta distribuição. Os valores esperados para 0, 1, 2 e 3 seis sob a distribuição Binomial (3,16) são os seguintes: Uma vez que o jogador joga 100 vezes, as contagens esperadas são as seguintes: As duas parcelas apresentadas abaixo fornecem uma comparação visual de Os valores esperados e observados: a partir desses gráficos, é difícil distinguir as diferenças entre as contagens observadas e esperadas. Uma representação visual das diferenças é o qui-grama. Que representa as contagens observadas esperadas divididas pela raiz quadrada das contagens esperadas, como mostrado abaixo: A estatística do qui-quadrado é a soma dos quadrados dos valores plotados, (48-58) sup258 (35-34.5) sup258 ( 15-7) sup27 (3-0,5) sup20,5 1,72 0,007 9,14 12,5 23,367. Dada esta estatística, os valores observados são prováveis sob o modelo assumido. Uma variável aleatória é dito ter uma distribuição de qui-quadrado com m graus de liberdade se for a soma dos quadrados de m variáveis aleatórias normais padrão padrão (o quadrado de uma Variável aleatória normal padrão normal tem uma distribuição de qui-quadrado com um grau de liberdade). Essa distribuição é denotada (m), com valores de probabilidade associados disponíveis na Tabela G em Moore e McCabe e no MINITAB. As contagens padronizadas (observadas - esperadas) sqrt (esperado) para k possibilidades são aproximadamente normais, mas não são independentes porque uma das contagens é inteiramente determinada pela soma dos outros (uma vez que o total das contagens observadas e esperadas deve somar tonelada ). Isso resulta em uma perda de um grau de liberdade, por isso resulta que a distribuição da estatística de teste do qui-quadrado com base nas contagens k é aproximadamente a distribuição do qui-quadrado com m k-1 graus de liberdade, denotada (k-1 ). Teste de hipóteses Usamos o teste do qui-quadrado para testar a validade de uma distribuição assumida para um fenômeno aleatório. O teste avalia as hipóteses nulas H 0 (que os dados são regidos pela distribuição assumida) contra a alternativa (que os dados não são extraídos da distribuição assumida). Deixe p 1. P 2. P k denotar as probabilidades hipótese para k resultados possíveis. Em n julgamentos independentes, nós deixamos Y 1. Y 2. Y k indica as contagens observadas de cada resultado que devem ser comparadas com as contagens esperadas np 1. Np 2. Np k. A estatística de teste do qui-quadrado é q k-1 Rejeite H 0 se esse valor exceder o valor crítico superior da distribuição (k-1), onde é o nível de significância desejado. No exemplo do jogo acima, a estatística do teste do qui-quadrado foi calculada para ser 23.367. Como k 4 neste caso (as possibilidades são 0, 1, 2 ou 3 seis), a estatística de teste está associada à distribuição do qui-quadrado com 3 graus de liberdade. Se estamos interessados em um nível de significância de 0,05, podemos rejeitar a hipótese nula (que os dados são justos) se 7,815, o valor correspondente ao nível de significância de 0,05 para a distribuição (3). Desde 23.367 é claramente superior a 7.815, podemos rejeitar a hipótese nula de que os dados são justos no nível de significância de 0.05. Dada esta informação, o cassino pediu ao jogador para tirar seus dados (e seus negócios) em outro lugar. Considere uma variável aleatória binomial Y com média (valor esperado) np e variância y 2 np (1-p). Do teorema do limite central. Sabemos que Z (Y-np) y possui uma distribuição aproximadamente normal (0,1) para valores grandes de n. Então Z sup2 é aproximadamente (1), uma vez que o quadrado de uma variável aleatória normal tem uma distribuição qui-quadrada. Suponha que a variável aleatória Y 1 tenha uma distribuição Bin (n, p 1) e deixe Y 2 n - Y 1 e p 2 1 - p 1. Uma vez que (Y 1 - np 1) sup2 (n - Y 2 - n np 2) sup2 (Y 2 - np 2) sup2, onde Z sup2 tem uma distribuição de qui-quadrado com 1 grau de liberdade. Se os valores observados Y1 e Y2 forem próximos dos valores esperados np 1 e np 2. Então o valor calculado Z sup2 será próximo de zero. Caso contrário, Z sup2 será grande. Em geral, para k variáveis aleatórias Y i. I 1, 2. k. Com correspondentes valores esperados np i. Uma estatística que mede a proximidade das observações com suas expectativas é a soma que tem uma distribuição de qui-quadrado com k-1 graus de liberdade. Estimativa de parâmetros Muitas vezes, a hipótese nula envolve o ajuste de um modelo com parâmetros estimados a partir dos dados observados. No exemplo de jogo acima, por exemplo, talvez desejemos ajustar um modelo binomial para avaliar a probabilidade de rolar um seis com os dados carregados pelos jogadores. Sabemos que esta probabilidade não é igual a 16, então podemos estimar esse valor calculando a probabilidade dos dados. Ao estimar um parâmetro, perdemos um grau de liberdade na estatística de teste do qui-quadrado. Em geral, se estimarmos os parâmetros d sob a hipótese nula com k contagens possíveis, os graus de liberdade para a distribuição do qui-quadrado associado serão k-1-d. Uma tabela de duas vias para duas variáveis categóricas X e Y com níveis r e c, respectivamente, terá r linhas e colunas c. A tabela terá células rc, com qualquer célula inteiramente determinada pela soma dos outros, então k-1 rc-1 neste caso. Um teste de qui-quadrado desta tabela testa a hipótese nula de independência contra a hipótese alternativa de associação entre as variáveis. Sob a suposição de independência, estimamos (r-1) (c-1) parâmetros para dar as probabilidades marginais que determinam as contagens esperadas, então d (r-1) (c-1). Os graus de liberdade para a estatística de teste do qui-quadrado são (rc-1) - (r-1) (c-1) rc -1 - r 1 - c 1 rc - r - c 1 (r - 1) (c - 1). O teste chi-square de bondade de ajuste também pode ser aplicado a distribuições contínuas. Nesse caso, os dados observados são agrupados em compartimentos discretos para que a estatística do qui-quadrado possa ser calculada. Os valores esperados sob a distribuição assumida são as probabilidades associadas a cada lata multiplicada pelo número de observações. No exemplo a seguir, o teste do qui-quadrado é usado para determinar se uma distribuição normal fornece ou não um ajuste adequado aos dados observados. O arquivo de dados MINITAB GRADES. MTW contém dados sobre pontuação SAT verbal e matemática e média de notas para 200 estudantes universitários. Suponhamos que desejemos determinar se os escores SAT verbais seguem uma distribuição normal. Um método é avaliar o gráfico de probabilidade normal para os dados, mostrado abaixo: O gráfico indica que a suposição de normalidade não é razoável para os dados de pontuação verbal. Para calcular uma estatística de teste do Qui-quadrado, primeiro padronizei os dados de pontuação verbal subtraindo a média da amostra e dividindo pelo desvio padrão da amostra. Uma vez que estes são parâmetros estimados, meu valor para d na estatística de teste será igual a dois. As 200 observações padronizadas são as seguintes: optei por dividir as observações em 10 compartimentos, da seguinte forma: as probabilidades normais padrão correspondentes e o número esperado de observações (com n 200) são os seguintes: a estatística do qui-quadrado é a soma de Os quadrados dos valores na última coluna e é igual a 2,69. Uma vez que os dados são divididos em 10 compartimentos e estimamos dois parâmetros, o valor calculado pode ser testado contra a distribuição do qui-quadrado com 10 -1 -2 7 graus de liberdade. Para esta distribuição, o valor crítico para o nível de significância de 0,05 é 14,07. Desde 2,69 lt 14.07, não rejeitamos a hipótese nula de que os dados são normalmente distribuídos. Estatística: análise de dados e software estatístico A documentação da versão 5 indica que a estatística de Qui-quadrado de qualidade relatada com os resultados da regressão de Poisson é uma Teste da hipótese nula de que a variável dependente é distribuída por Poisson. A minha pergunta é por que esta estatística (e talvez a inferência resultante quanto à adequação da regressão de Poisson) varia com a composição das variáveis do lado direito. A estatística chi-quadrado bondosa de ajuste no comando poisson é uma estatística simples de Pearsons qui-squared: onde eu indexo as observações no conjunto de dados. O df é Se você dividir ou agrupar as contagens e exposições de forma diferente, você obtém células diferentes para o Pearson Chi-squared e, portanto, uma estatística diferente. Herersquos um exemplo usando o primeiro exemplo na entrada de poisson do manual na página 31 do manual de referência do PndashZ: agora agruparemos os dados pelos padrões covariáveis exclusivos do modelo. Neste caso, isso simplesmente equivale a agrupamento por XYZowned e somando contagens (lesões) e exposição (n) dentro deste agrupamento: Observe que o erro IRR e std são os mesmos, mas o teste de qualidade de ajuste é diferente. Do ponto de vista da regressão de Poisson, os conjuntos de dados originais e recolhidos são equivalentes, mas o primeiro conjunto de dados tem mais informações sobre a Poisson-ness dos dados, pois você pode examinar as contagens para pequenas porções de exposição. Quando as porções de exposição ficam muito pequenas, obtém-se o problema bem conhecido das contagens esperadas para o qui-quadrado de Pearson tornando-se pequeno. Talvez o Stata deve se agrupar automaticamente por padrão covariável antes de fazer o Pearson chi-squared como lfit faz após a logística. Mas, em alguns casos, certamente é legítimo não agrupar (este é próximo de ser um desses casos, as lesões de mdash são apenas um pouco baixas para alguns obs). Note-se que Pearsonrsquos chi-squared também tem um problema quando o df se torna grande. Isso acontece para poisson quando o número de observações se torna grande. Minhas regras pessoais: se o número de padrões covariáveis exclusivos não for pequeno (digamos maior que 20), agrupe-o para o teste gof para que seu conjunto de dados tenha apenas uma observação por padrão covariável exclusivo. Olhe para as contagens previstas (esperadas). Se houver alguns muito pequenos (lt 2) ou muitos pequenos (lt 5), veja o teste Pearsons chi-squared gof com suspeita. Se o df do qui-quadrado for grande (gt50-100), tire o resultado com um grande grão de sal. (Isso é verdade para qualquer estatística chi-quadrado.)
No comments:
Post a Comment