Friday 23 June 2017

F Limer Test In Stata Forex


Estou tentando fazer um teste F sobre o significado conjunto de efeitos fixos (variáveis ​​dummy individuais específicas) em uma regressão OLS de dados de painel (em R), no entanto, não encontrei uma maneira de conseguir isso por um grande número de efeitos fixos . Idealmente, eu usaria uma função no pacote plm, no entanto, não encontrei nada que especifique especificamente esse teste. Isso é algo que o Stata faz automaticamente ao usar o comando xtreg, fe. Em Stata, os resultados se parecem com isto: Novamente, estou tentando reproduzir o resultado do Stata em R para um grande número de variáveis ​​falsas, talvez especificadas pelo fator (us. state) usando lm () ou modelo fe usando plm (). Aqui está um exemplo reproduzível: o que é equivalente ao seguinte dentro da regressão usando o pacote plm. Assim, o teste seria o teste de que todas as variáveis ​​dummy do estado são conjuntamente diferentes de zero (conjuntamente significativo). Esta é uma restrição linear no modelo irrestrito (reg1 e reg1.fe acima). Este teste F é melhor explicado no documento a seguir (ver slides 5-7). Aqui está uma das minhas fracas tentativas de criar uma matriz R para o teste F com hipótese nula: Rb q onde b é a matriz de coeficientes (beta hat) e q é um vetor de zeros. Isso não funciona E, eu espero que haja uma abordagem simplificada para testar a significância conjunta de todas as variáveis ​​dummy de efeito fixo. Primeiro, gostaria de sugerir que sua pergunta poderia ser melhorada por (1) fornecendo um exemplo reprodutível e (2) descrevendo o teste preciso ao qual você se refere ao dizer F teste. Um link para o Stata docs talvez F seja a distribuição, então pode haver um teste de gazillion chamado teste F. Se o seu interesse substantivo reside na determinação de se o modelo de efeitos fixos se adequa aos dados significativamente melhor que o OLS sem efeitos fixos, você sempre pode usar um teste de razão de verossimilhança. Tenho certeza de que existem muitas implementações em R, mas a fornecida pelo pacote lmtest é bastante conveniente. Heres um exemplo usando um conjunto de dados distribuído com o pacote plm (você parece ter instalado isso, então deve ser fácil de tentar). Eu acho que a função pFtest () do plm39s pode fazer o que você deseja (veja a resposta editada). O resultado não é exatamente o mesmo que a saída do Stata, provavelmente devido ao fato de que o primeiro parâmetro da distribuição F é diferente. Mas quando eu coloco ambos os modelos individualmente com lm ​​(), obtenho graus de liberdade de 543 e 498 (diferença de 45), então R parece estar aqui. Veja se você obtém os mesmos graus de liberdade no Stata quando se encaixa no pool e nos modelos individualmente. O problema com softwares de código fechado como o Stata é que nunca saberemos exatamente como eles calculam o teste F. Ndash Vincent 30 de maio 11 às 3:50 Eu realmente não acho que esse teste seja útil. Em vez de estimar o que você chama de efeito fixo (Ill chamar modelo de não-agrupamento), por que não um modelo hierárquico O modelo hierárquico (ou modelo de agrupamento parcial) permitirá que suas estimativas diminuam para o significado comum para os estados, mas sem impor Eles sejam iguais. Mais importante, se você precisar avaliar quanto estados variam, você precisará usar a variância estimada entre estado e intra-estado. Se a variância entre o estado for baixa (perto de zero), você não está ganhando muito usando um modelo hierárquico e as interceptações são aproximadamente iguais. Se a variância for muito grande (no limite, quando vai para o infinito), o modelo hierárquico adiciona pouco e você pode executar um modelo separado para cada estado. Você pode estimar um modelo hierárquico em R com o pacote lme4. Usando seus dados: O desvio padrão estimado da intercepção por estados é 4.39 e o desvio padrão por indivíduo é 4.19.NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos . Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal dando um presente Stata FAQ Como posso realizar o teste multiplicador, Wald e Lagrange em Stata O teste de razão de verossimilhança (teste lr), teste de Wald, E o teste multiplicador de Lagrange (às vezes chamado de teste de pontuação) são comumente usados ​​para avaliar a diferença entre os modelos aninhados. Um modelo é considerado aninhado em outro se o primeiro modelo pode ser gerado impondo restrições aos parâmetros do segundo. Na maioria das vezes, a restrição é que o parâmetro é igual a zero. Em um modelo de regressão, a restrição de parâmetros a zero é realizada removendo as variáveis ​​preditoras do modelo. Por exemplo, nos modelos abaixo, o modelo com as variáveis ​​preditores femininas. e leia . Está aninhado dentro do modelo com as variáveis ​​preditoras femininas. ler . Matemática. E ciência. Os testes de multiplicador lr, Wald e Lagrange fazem a mesma pergunta básica, que é, restringe esses parâmetros a zero (ou seja, deixando para fora essas variáveis ​​de preditores) reduzem significativamente o ajuste do modelo. Para realizar um teste de razão de verossimilhança, é preciso estimar ambos Dos modelos que se deseja comparar. A vantagem dos testes Wald e score é que eles se aproximam do teste lr, mas exigem que apenas um modelo seja estimado. Quando o poder de computação era muito mais limitado, e muitos modelos demoravam muito para ser executados, essa era uma grande vantagem. Hoje, para a maioria dos modelos, os pesquisadores provavelmente irão comparar, isso não é um problema, e geralmente recomendamos executar o teste da razão de verossimilhança na maioria das situações. Isso não quer dizer que nunca se deve usar os testes de Wald ou de pontuação. Por exemplo, o teste de Wald é comumente usado para realizar testes de vários graus de liberdade em conjuntos de variáveis ​​dummy usadas para modelar variáveis ​​categóricas em regressão (para mais informações, veja nosso webbook em Regressão com Stata, especificamente Capítulo 3 - Regressão com Preditores Categóricos). Outro exemplo são os índices de quotmodificação utilizados na modelagem de equações estruturais, são testes de multiplicadores Lagrange. Como mencionado acima, o teste lr requer que dois modelos sejam executados, um dos quais tem um conjunto de parâmetros (variáveis) e um segundo modelo com todos os parâmetros do primeiro, mais uma ou mais variáveis. O teste Wald examina um modelo com mais parâmetros e avalia se restringir esses parâmetros (geralmente a zero, removendo as variáveis ​​associadas do modelo) prejudica seriamente o ajuste do modelo. Em contraste, o teste de pontuação examina os resultados de um modelo menor e pergunta se a adição de uma ou mais variáveis ​​omitidas melhoraria o ajuste do modelo. Em geral, os três testes devem chegar à mesma conclusão (porque o teste Wald e score, pelo menos em teoria, aproxima o teste lr). Como exemplo, vamos testar uma diferença estatisticamente significante entre dois modelos, usando os três testes. O conjunto de dados para este exemplo inclui dados demográficos, bem como pontuações padronizadas para 200 alunos do ensino médio. Vamos comparar dois modelos. A variável dependente para ambos os modelos é hiwrite (para ser aninhado, dois modelos devem compartilhar a mesma variável dependente), que é uma variável dicotômica que indica que o aluno teve uma pontuação de escrita acima da média. Existem quatro possíveis variáveis ​​preditoras, femininas. Uma variável dummy que indica que o aluno é feminino e as variáveis ​​contínuas são lidas. Matemática. E ciência. Que são os alunos padronizados nos resultados de testes em leitura, matemática e ciência, respectivamente. Vamos testar um modelo contendo apenas as variáveis ​​preditoras feminino e lido. Contra um modelo que contém as variáveis ​​preditores feminino e lido. Bem como, as variáveis ​​de preditores adicionais, matemática e ciência. Exemplo de teste de razão de verossimilhança. Conforme discutido acima, o teste lr envolve estimar dois modelos e compará-los. A fixação de um ou mais parâmetros a zero, ao remover as variáveis ​​associadas a esse parâmetro do modelo, quase sempre tornará o modelo mais adequado, de modo que uma mudança na probabilidade do log não significa necessariamente que o modelo com mais variáveis ​​se encaixa significativamente melhor. O teste lr compara as probabilidades de log dos dois modelos e verifica se esta diferença é estatisticamente significativa. Se a diferença for estatisticamente significante, então o modelo menos restritivo (o que possui mais variáveis) é adequado para os dados significativamente melhor do que o modelo mais restritivo. A estatística do teste lr é calculada da seguinte maneira: LR -2 ln (L (m1) L (m2)) 2 (ll (m2) - ll (m1)) Onde L (m) denota a probabilidade do modelo respectivo, E ll (m) o log natural da probabilidade dos modelos. Esta estatística é distribuída chi-quadrado com graus de liberdade igual à diferença no número de graus de liberdade entre os dois modelos (ou seja, o número de variáveis ​​adicionadas ao modelo). Para realizar o teste de razão de verossimilhança, precisaremos executar os dois modelos e tomar nota de suas probabilidades de log final. Vamos executar os modelos usando o Stata e usar os comandos para armazenar as probabilidades de log. Nós também podemos simplesmente copiar as verossimilhanças (por exemplo, escrevendo-as para baixo ou cortando e colando), mas usar comandos é um pouco mais fácil e é menos provável que resulte em erros. A primeira linha de sintaxe abaixo lê no conjunto de dados do nosso site. A segunda linha de sintaxe executa um modelo de regressão logística, prevendo o hiwrite com base no sexo dos alunos (feminino) e nas pontuações de leitura (leitura). A terceira linha de código armazena o valor da probabilidade de log para o modelo, que é temporariamente armazenado como a estimativa devolvida e (ll) (para mais informações, digite, ajude a retornar na janela de comando do Stata), no escalar chamado m1. Abaixo está a saída. Para realizar o teste de razão de verossimilhança, precisaremos acompanhar a probabilidade do log (-102.44), a sintaxe para este exemplo (acima) faz isso armazenando o valor em um escalar. Uma vez que não é nossa principal preocupação aqui, ignoraremos a interpretação do modelo de regressão logística restante. Observe que armazenar a estimativa retornada não produz qualquer saída. A primeira linha de sintaxe abaixo corre o segundo modelo, ou seja, o modelo com as quatro variáveis ​​preditoras. A segunda linha de código armazena o valor da probabilidade de log para o modelo (-84.4), que é temporariamente armazenado como a estimativa retornada (e (ll)), no escalar chamado m2. Mais uma vez, não vamos dizer muito sobre o resultado, exceto para notar que os coeficientes para matemática e ciência são ambos estatisticamente significativos. Então sabemos que, individualmente, são preditores estatisticamente significativos de hiwrite. Agora que temos as probabilidades de log de ambos os modelos, podemos realizar um teste de razão de verossimilhança. A primeira linha de sintaxe abaixo calcula a estatística de teste da razão de verossimilhança. A segunda linha de sintaxe abaixo encontra o valor p associado à nossa estatística de teste com dois graus de liberdade. Olhando abaixo, vemos que a estatística de teste é 36,05 e que o valor de p associado é muito baixo (menos de 0,0001). Os resultados mostram que a adição de matemática e ciência como variáveis ​​preditoras em conjunto (e não apenas individualmente) resulta em uma melhoria estatisticamente significativa no ajuste do modelo. Note-se que se realizássemos um teste de razão de verossimilhança para adicionar uma única variável ao modelo, os resultados seriam os mesmos que o teste de significância para o coeficiente dessa variável apresentado na tabela acima. Usando os comandos de Statsestapostim para calcular um teste de razão de verossimilhança Como você viu, é fácil calcular um teste de razão de verossimilhança por mão. No entanto, você também pode usar o Stata para armazenar as estimativas e executar o teste para você. Este método é ainda mais fácil, e provavelmente menos propenso a erros. A primeira linha de sintaxe executa um modelo de regressão logística, prevendo o hiwrite com base no sexo do estudante (feminino) e nas pontuações de leitura (leitura). A segunda linha de sintaxe pede a Stata para armazenar as estimativas do modelo que acabamos de executar e instrui a Stata que queremos chamar as estimativas m1. É necessário dar um nome às estimativas, uma vez que a Stata permite aos usuários armazenar as estimativas de mais de uma análise e estaremos armazenando mais de um conjunto de estimativas. Abaixo está a saída. Uma vez que não é nossa principal preocupação aqui, ignoraremos a interpretação do modelo de regressão logística. Observe que armazenar as estimativas não produz qualquer saída. A primeira linha de sintaxe abaixo deste parágrafo executa o segundo modelo, que é o modelo com as quatro variáveis ​​de preditores. A segunda linha de sintaxe economiza as estimativas desse modelo e os nomeia em m2. Abaixo da sintaxe é gerada a saída. Mais uma vez, não vamos dizer muito sobre o resultado, exceto para notar que os coeficientes para matemática e ciência são ambos estatisticamente significativos. Então sabemos que, individualmente, são preditores estatisticamente significativos de hiwrite. Os testes abaixo nos permitirão testar se a adição de ambas as variáveis ​​ao modelo melhora significativamente o ajuste do modelo, em comparação com um modelo que contém apenas sexo e leitura. A primeira linha de sintaxe abaixo mostra ao Stata que queremos executar um teste lr e que queremos comparar as estimativas que salvamos como m1 para aqueles que guardamos em m2. A saída nos lembra que este teste pressupõe que A está aninhado em B, o que é. Ele também nos dá o valor chi-quadrado para o teste (36.05), bem como o valor p para um qui-quadrado de 36.05 com dois graus de liberdade. Observe que os graus de liberdade para o teste lr, juntamente com os outros dois testes, são iguais ao número de parâmetros que são restritos (ou seja, removidos do modelo), no nosso caso, 2. Observe que os resultados são os mesmos que Quando calculamos o teste lr à mão acima. A adição de matemática e ciência como variáveis ​​preditoras em conjunto (e não apenas individualmente) resulta em uma melhoria estatisticamente significativa no ajuste do modelo. Conforme observado quando calculamos o teste da razão de verossimilhança manualmente, se realizarmos um teste de razão de verossimilhança para adicionar uma única variável ao modelo, os resultados seriam os mesmos que o teste de significância para o coeficiente dessa variável apresentado na tabela acima. Toda a sintaxe para um teste de razão de verossimilhança, tudo em um bloco, parece assim: Exemplo de um teste Wald Como mencionado acima, o teste Wald se aproxima do teste lr, mas com a vantagem de que ele só precisa estimar um modelo. O teste Wald funciona testando que os parâmetros de interesse são simultaneamente iguais a zero. Se o fizerem, isso sugere fortemente que removê-los do modelo não reduzirá substancialmente o ajuste desse modelo, uma vez que um preditor cujo coeficiente é muito pequeno em relação ao seu erro padrão geralmente não está fazendo muito para ajudar a prever a variável dependente. O primeiro passo na execução de um teste de Wald é executar o modelo completo (ou seja, o modelo que contém as quatro variáveis ​​preditoras). A primeira linha de sintaxe abaixo faz isso (mas usa o prefixo silencioso para que a saída da regressão não seja mostrada). A segunda linha de sintaxe abaixo instrui Stata para executar um teste Wald para testar se os coeficientes para as variáveis ​​matemática e ciência são simultaneamente iguais a zero. A saída primeiro dá a hipótese nula. Abaixo disso, vemos o valor do qui-quadrado gerado pelo teste de Wald, bem como o valor de p associado a um qui-quadrado de 27,53 com dois graus de liberdade. Com base no valor p, somos capazes de rejeitar a hipótese nula, indicando novamente que os coeficientes para matemática e ciência não são simultaneamente iguais a zero, o que significa que incluir essas variáveis ​​cria uma melhoria estatisticamente significativa no ajuste do modelo. Exemplo de uma pontuação ou teste multiplicador Lagrange Por favor, note que o testomit escrito pelo usuário não está mais disponível no Stata. Para realizar o teste de pontuação, você precisará baixar dois pacotes escritos pelo usuário para o Stata. Esses pacotes são chamados enumopt e testomit. Se o seu computador estiver online, você pode digitar findit enumopt na janela de comando do Stata. (Para mais informações ou ajuda, veja a nossa página de perguntas frequentes. Como faço para encontrar find para procurar programas e ajuda adicional). Assumindo que os pacotes necessários estão instalados, a sintaxe abaixo mostra como executar um teste de pontuação. A primeira linha de sintaxe executa o modelo com apenas sexo feminino e lê como variáveis ​​preditoras (lembre-se de que o teste de pontuação usa um modelo com menos variáveis ​​e testes para variáveis ​​omitidas). A próxima linha usa o comando prever gerar uma nova variável chamada teste que contém a pontuação para cada caso. Sem entrar em detalhes demais, as pontuações aqui são baseadas no modelo estimado e o valor das variáveis ​​no modelo para cada caso. A terceira linha de sintaxe usa o comando testomit para examinar se as variáveis ​​matemática e ciência são variáveis ​​que foram omitidas incorretamente no modelo. A pontuação da opção (teste) diz a Stata o nome da variável que contém as pontuações, embora esteja na seção de opções (isto é, após a vírgula), isso é necessário. Observe que o testomit escrito pelo usuário não está mais disponível no Stata. A primeira parte da saída fornece o tipo de modelo executado, seguido por uma tabela de resultados. Os resultados do teste de pontuação são distribuídos em qui-quadrado com graus de liberdade iguais ao número de variáveis ​​adicionadas ao modelo. A tabela tem três colunas, a primeira dando o valor da estatística de teste, a segunda o número de graus de liberdade para o teste e a terceira fornecendo o valor de p associado a um qui-quadrado de um determinado valor com um número determinado De graus de liberdade. As variáveis ​​matemática e ciência aparecem separadamente em suas próprias linhas, as duas primeiras linhas contêm os resultados para um teste de se adicionar (mas não ambas) essas variáveis ​​ao modelo melhoraria significativamente o ajuste do modelo. A linha inferior, rotulada como teste simultâneo, testa se a adição de ambas as variáveis ​​ao modelo melhorará significativamente o ajuste do modelo. Os resultados apresentados na tabela são consistentes com os testes Wald e lr que realizamos acima. Eles também são consistentes com a saída de regressão acima, em que os coeficientes para matemática e ciência foram estatisticamente significativos. O comando testomit se comporta de forma um pouco diferente para diferentes comandos de estimativa. Abaixo estão exemplos de como usar o testomit com vários outros comandos de regressão. A maioria dos comandos de equações múltiplas usará uma sintaxe semelhante à sintaxe do mlogit. Duas excepções são ologit e oprobit. E regredir. Que são mostrados separadamente. Observe que o testomit escrito pelo usuário não está mais disponível no Stata. Para o mlogit e muitos outros comandos de equações múltiplas: Para ologit e oprobit: Estou tentando fazer um teste F sobre o significado conjunto de efeitos fixos (variáveis ​​dummy individuais específicas) em uma regressão OLS de dados de painel (em R), no entanto Não encontrei uma maneira de conseguir isso para uma grande quantidade de efeitos fixos. Idealmente, eu usaria uma função no pacote plm, no entanto, não encontrei nada que especificamente faça esse teste. Isso é algo que o Stata faz automaticamente ao usar o comando xtreg, fe. Em Stata, os resultados se parecem com isto: Novamente, estou tentando reproduzir o resultado Stata em R para um grande número de variáveis ​​falsas, talvez especificadas por fator (us. state) usando lm () ou modelo fe usando plm (). Aqui está um exemplo reproduzível: o que é equivalente ao seguinte dentro da regressão usando o pacote plm. Assim, o teste seria o teste de que todas as variáveis ​​dummy do estado são conjuntamente diferentes de zero (conjuntamente significativo). Esta é uma restrição linear no modelo irrestrito (reg1 e reg1.fe acima). Este teste F é melhor explicado no documento a seguir (ver slides 5-7). Aqui está uma das minhas fracas tentativas de criar uma matriz R para o teste F com hipótese nula: Rb q onde b é a matriz de coeficientes (beta hat) e q é um vetor de zeros. Isso não funciona E, eu espero que haja uma abordagem simplificada para testar a significância conjunta de todas as variáveis ​​dummy de efeito fixo. Primeiro, gostaria de sugerir que sua pergunta poderia ser melhorada por (1) fornecendo um exemplo reprodutível e (2) descrevendo o teste preciso ao qual você se refere ao dizer F teste. Um link para o Stata docs talvez F seja a distribuição, então pode haver um teste de gazillion chamado teste F. Se o seu interesse substantivo reside na determinação de se o modelo de efeitos fixos se ajusta aos dados de forma significativamente melhor do que o OLS sem efeitos fixos, você sempre pode usar um teste de razão de verossimilhança. Tenho certeza de que existem várias implementações em R, mas o fornecido pelo pacote lmtest é bastante conveniente. Heres um exemplo usando um conjunto de dados distribuído com o pacote plm (você parece ter instalado isso, então deve ser fácil de tentar). Eu acho que a função pFtest () do plm39s pode fazer o que você deseja (veja a resposta editada). O resultado não é exatamente o mesmo que a saída do Stata, provavelmente devido ao fato de que o primeiro parâmetro da distribuição F é diferente. Mas quando eu encaixo ambos os modelos individualmente com lm ​​(), obtenho graus de liberdade de 543 e 498 (diferença de 45), então R parece estar aqui. Veja se você obtém os mesmos graus de liberdade no Stata quando se encaixa no pool e nos modelos individualmente. O problema com softwares de código fechado como o Stata é que nunca saberemos exatamente como eles calculam o teste F. Ndash Vincent 30 de maio 11 às 3:50 Eu realmente não acho que esse teste seja útil. Em vez de estimar o que você chama de efeito fixo (Ill chamar modelo de não-agrupamento), por que não um modelo hierárquico O modelo hierárquico (ou modelo de agrupamento parcial) permitirá que suas estimativas diminuam para o significado comum para os estados, mas sem impor Eles sejam iguais. Mais importante, se você precisar avaliar quanto estados variam, você precisará usar a variância estimada entre estado e intra-estado. Se a variação entre o estado for baixa (perto de zero), não está ganhando muito usando um modelo hierárquico e as interceptações são aproximadamente iguais. Se a variância for muito grande (no limite, quando vai para o infinito), o modelo hierárquico adiciona pouco e você pode executar um modelo separado para cada estado. Você pode estimar um modelo hierárquico em R com o pacote lme4. Usando seus dados: O desvio padrão estimado da intercepção por estados é 4.39 e o desvio padrão por indivíduo é 4.19.NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos . Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal dando um presente Stata FAQ Como posso realizar o teste multiplicador, Wald e Lagrange em Stata O teste de razão de verossimilhança (teste lr), teste de Wald, E o teste multiplicador de Lagrange (às vezes chamado de teste de pontuação) são comumente usados ​​para avaliar a diferença entre os modelos aninhados. Um modelo é considerado aninhado em outro se o primeiro modelo pode ser gerado impondo restrições aos parâmetros do segundo. Na maioria das vezes, a restrição é que o parâmetro é igual a zero. Em um modelo de regressão, a restrição de parâmetros a zero é realizada removendo as variáveis ​​preditoras do modelo. Por exemplo, nos modelos abaixo, o modelo com as variáveis ​​preditores femininas. e leia . Está aninhado dentro do modelo com as variáveis ​​preditoras femininas. ler . Matemática. E ciência. Os testes de multiplicador lr, Wald e Lagrange fazem a mesma pergunta básica, o que é, restringe esses parâmetros a zero (ou seja, deixando para fora essas variáveis ​​de preditores) reduzem significativamente o ajuste do modelo. Para realizar um teste de razão de verossimilhança, é preciso estimar ambos Dos modelos que se deseja comparar. A vantagem dos testes Wald e score é que eles se aproximam do teste lr, mas exigem que apenas um modelo seja estimado. Quando o poder de computação era muito mais limitado, e muitos modelos demoravam muito para ser executados, essa era uma grande vantagem. Hoje, para a maioria dos modelos, os pesquisadores provavelmente irão comparar, isso não é um problema, e geralmente recomendamos executar o teste de razão de verossimilhança na maioria das situações. Isso não quer dizer que nunca se deve usar os testes de Wald ou de pontuação. Por exemplo, o teste de Wald é comumente usado para realizar testes de múltiplo grau de liberdade em conjuntos de variáveis ​​dummy usadas para modelar variáveis ​​categóricas em regressão (para mais informações, veja nosso webbook em Regressão com Stata, especificamente Capítulo 3 - Regressão com Preditores Categóricos). Outro exemplo são os índices de quotmodificação utilizados na modelagem de equações estruturais, são testes de multiplicadores Lagrange. Como mencionado acima, o teste lr requer que dois modelos sejam executados, um dos quais possui um conjunto de parâmetros (variáveis) e um segundo modelo com todos os parâmetros do primeiro, mais uma ou mais variáveis. O teste de Wald examina um modelo com mais parâmetros e avalia se restringir esses parâmetros (geralmente a zero, removendo as variáveis ​​associadas do modelo) prejudica seriamente o ajuste do modelo. Em contraste, o teste de pontuação examina os resultados de um modelo menor e pergunta se a adição de uma ou mais variáveis ​​omitidas melhoraria o ajuste do modelo. Em geral, os três testes devem chegar à mesma conclusão (porque o teste Wald e score, pelo menos em teoria, aproxima o teste lr). Como exemplo, vamos testar uma diferença estatisticamente significante entre dois modelos, usando os três testes. O conjunto de dados para este exemplo inclui dados demográficos, bem como pontuações padronizadas para 200 alunos do ensino médio. Vamos comparar dois modelos. A variável dependente para ambos os modelos é hiwrite (para ser aninhado, dois modelos devem compartilhar a mesma variável dependente), que é uma variável dicotômica que indica que o aluno teve uma pontuação de escrita acima da média. Existem quatro possíveis variáveis ​​preditoras, femininas. Uma variável dummy que indica que o aluno é feminino e as variáveis ​​contínuas são lidas. Matemática. E ciência. Que são os alunos padronizados nos resultados de testes em leitura, matemática e ciência, respectivamente. Vamos testar um modelo contendo apenas as variáveis ​​preditoras feminino e lido. Contra um modelo que contém as variáveis ​​preditores feminino e lido. Bem como, as variáveis ​​de preditores adicionais, matemática e ciência. Exemplo de um teste de razão de verossimilhança. Conforme discutido acima, o teste lr envolve estimar dois modelos e compará-los. A fixação de um ou mais parâmetros para zero, ao remover as variáveis ​​associadas a esse parâmetro do modelo, quase sempre tornará o modelo mais adequado, de modo que uma mudança na probabilidade do log não significa necessariamente que o modelo com mais variáveis ​​se encaixa significativamente melhor. O teste lr compara as probabilidades de log dos dois modelos e verifica se esta diferença é estatisticamente significativa. Se a diferença for estatisticamente significante, entende-se que o modelo menos restritivo (aquele com mais variáveis) corresponde aos dados significativamente melhor do que o modelo mais restritivo. A estatística do teste lr é calculada da seguinte maneira: LR -2 ln (L (m1) L (m2)) 2 (ll (m2) - ll (m1)) Onde L (m) denota a probabilidade do modelo respectivo, E ll (m) o log natural da probabilidade dos modelos. Esta estatística é distribuída chi-quadrado com graus de liberdade igual à diferença no número de graus de liberdade entre os dois modelos (ou seja, o número de variáveis ​​adicionadas ao modelo). Para realizar o teste de razão de verossimilhança, precisaremos executar os dois modelos e tomar nota de suas probabilidades de log final. Vamos executar os modelos usando o Stata e usar os comandos para armazenar as probabilidades de log. Nós também poderíamos simplesmente copiar a probabilidade para baixo (por exemplo, escrevendo-os, cortando e colando), mas usar comandos é um pouco mais fácil e é menos provável que resulte em erros. A primeira linha de sintaxe abaixo lê no conjunto de dados do nosso site. A segunda linha de sintaxe executa um modelo de regressão logística, prevendo o hiwrite baseado no gênero do estudante (feminino) e na leitura (leitura). A terceira linha de código armazena o valor da probabilidade de log para o modelo, que é temporariamente armazenado como a estimativa devolvida e (ll) (para mais informações, digite, ajude a retornar na janela de comando do Stata), no escalar chamado m1. Abaixo está a saída. Para realizar o teste de razão de verossimilhança, precisaremos acompanhar a probabilidade do log (-102.44), a sintaxe para este exemplo (acima) faz isso armazenando o valor em um escalar. Uma vez que não é nossa principal preocupação aqui, ignoraremos a interpretação do modelo de regressão logística restante. Observe que armazenar a estimativa retornada não produz qualquer saída. A primeira linha de sintaxe abaixo corre o segundo modelo, ou seja, o modelo com as quatro variáveis ​​preditoras. A segunda linha de código armazena o valor da probabilidade de log para o modelo (-84.4), que é temporariamente armazenado como a estimativa retornada (e (ll)), no escalar chamado m2. Mais uma vez, não vamos dizer muito sobre o resultado, exceto para notar que os coeficientes para matemática e ciência são ambos estatisticamente significativos. Então sabemos que, individualmente, são preditores estatisticamente significativos de hiwrite. Agora que temos as probabilidades de log de ambos os modelos, podemos realizar um teste de razão de verossimilhança. A primeira linha de sintaxe abaixo calcula a estatística de teste da razão de verossimilhança. A segunda linha de sintaxe abaixo encontra o valor p associado à nossa estatística de teste com dois graus de liberdade. Olhando abaixo, vemos que a estatística de teste é 36,05 e que o valor de p associado é muito baixo (menos de 0,0001). Os resultados mostram que a adição de matemática e ciência como variáveis ​​preditoras em conjunto (e não apenas individualmente) resulta em uma melhoria estatisticamente significativa no ajuste do modelo. Note-se que, se realizássemos um teste de razão de verossimilhança para adicionar uma única variável ao modelo, os resultados seriam os mesmos que o teste de significância para o coeficiente dessa variável apresentado na tabela acima. Usando os comandos de Statsestatities para calcular um teste de razão de verossimilhança Como você viu, é fácil calcular um teste de razão de verossimilhança por mão. No entanto, você também pode usar o Stata para armazenar as estimativas e executar o teste para você. Este método é ainda mais fácil, e provavelmente menos propenso a erros. A primeira linha de sintaxe executa um modelo de regressão logística, prevendo o hiwrite baseado no gênero do estudante (feminino) e na leitura (leitura). A segunda linha de sintaxe pede a Stata para armazenar as estimativas do modelo que acabamos de executar e instrui a Stata que queremos chamar as estimativas m1. É necessário dar um nome às estimativas, uma vez que a Stata permite aos usuários armazenar as estimativas de mais de uma análise e estaremos armazenando mais de um conjunto de estimativas. Abaixo está a saída. Uma vez que não é nossa principal preocupação aqui, ignoraremos a interpretação do modelo de regressão logística. Observe que armazenar as estimativas não produz qualquer saída. A primeira linha de sintaxe abaixo deste parágrafo executa o segundo modelo, que é o modelo com as quatro variáveis ​​de preditores. A segunda linha de sintaxe economiza as estimativas desse modelo e os nomeia em m2. Abaixo da sintaxe é gerada a saída. Again, we wont say much about the output except to note that the coefficients for both math and science are both statistically significant. So we know that, individually, they are statistically significant predictors of hiwrite . The tests below will allow us to test whether adding both of these variables to the model significantly improves the fit of the model, compared to a model that contains just female and read . The first line of syntax below tells Stata that we want to run an lr test, and that we want to compare the estimates we have saved as m1 to those we have saved as m2 . The output reminds us that this test assumes that A is nested in B, which it is. It also gives us the chi-squared value for the test (36.05) as well as the p-value for a chi-squared of 36.05 with two degrees of freedom. Note that the degrees of freedom for the lr test, along with the other two tests, is equal to the number of parameters that are constrained (i. e. removed from the model), in our case, 2. Note that the results are the same as when we calculated the lr test by hand above. Adding math and science as predictor variables together (not just individually) results in a statistically significant improvement in model fit. As noted when we calculated the likelihood ratio test by hand, if we performed a likelihood ratio test for adding a single variable to the model, the results would be the same as the significance test for the coefficient for that variable presented in the table above. The entire syntax for a likelihood ratio test, all in one block, looks like this: Example of a Wald test As was mentioned above, the Wald test approximates the lr test, but with the advantage that it only requires estimating one model. The Wald test works by testing that the parameters of interest are simultaneously equal to zero. If they are, this strongly suggests that removing them from the model will not substantially reduce the fit of that model, since a predictor whose coefficient is very small relative to its standard error is generally not doing much to help predict the dependent variable. The first step in performing a Wald test is to run the full model (i. e. the model containing all four predictor variables). The first line of syntax below does this (but uses the quietly prefix so that the output from the regression is not shown). The second line of syntax below instructs Stata to run a Wald test in order to test whether the coefficients for the variables math and science are simultaneously equal to zero. The output first gives the null hypothesis. Below that we see the chi-squared value generated by the Wald test, as well as the p-value associated with a chi-squared of 27.53 with two degrees of freedom. Based on the p-value, we are able to reject the null hypothesis, again indicating that the coefficients for math and science are not simultaneously equal to zero, meaning that including these variables create a statistically significant improvement in the fit of the model. Example of a score or Lagrange multiplier test Please note that the user-written testomit is no longer available in Stata. In order to perform the score test, you will need to download two user written packages for Stata. These packages are called enumopt and testomit . If your computer is online, you can type findit enumopt in the Stata command window. (For more information or help see our FAQ page How do I use findit to search for programs and additional help ) Assuming the necessary packages are installed, the syntax below shows how to run a score test. The first line of syntax runs the model with just female and read as predictor variables (recall that the score test uses a model with fewer variables and tests for omitted variables). The next line uses the command predict to generate a new variable called test that contains the score for each case. Without going into too much detail, the scores here are based on the model estimated and the value of the variables in the model for each case. The third line of syntax uses the testomit command to examine whether the variables math andor science are variables which were incorrectly omitted from the model. The option score(test) tells Stata the name of the variable containing the scores, although it is in the options section (i. e. after the comma), this is required. Please note that the user-written testomit is no longer available in Stata. The first part of the output gives the type of model run, followed by a table of results. The results of the score test are distributed chi-squared with degrees of freedom equal to the number of variables added to the model. The table has three columns, the first giving the value of the test statistic, the second the number of degrees of freedom for the test, and the third giving the p-value associated with a chi-squared of a given value with a given number of degrees of freedom. The variables math and science appear separately in their own rows, the first two rows contain the results for a test of whether adding either (but not both) of these variables to the model would significantly improve the fit of the model. The bottom row, labeled simultaneous test, tests whether adding both variables to the model will significantly improve the fit of the model. The results shown in the table are consistent with the Wald and lr tests we performed above. They are also consistent with the regression output above, in which the coefficients for math and science were statistically significant. The command testomit behaves somewhat differently for different estimation commands. Below are examples of how to use testomit with several other regression commands. Most multiple equation commands will use a syntax similar to the syntax for mlogit . Two exceptions are ologit and oprobit . and regress . which are shown separately. Please note that the user-written testomit is no longer available in Stata. For mlogit and many other multiple-equation commands: For ologit and oprobit :

No comments:

Post a Comment