Skip to main content

Perform F Test In Stata Forex


Stata: Análise de Dados e Software Estatístico Kristin MacDonald, StataCorp Os comandos de Estimação fornecem um teste t ou teste z para a hipótese nula de que um coeficiente é igual a zero. O comando de teste pode executar testes de Wald para hipóteses lineares simples e compostas nos parâmetros, mas estes testes de Wald também se limitam a testes de igualdade. Testes unilaterais t Para realizar testes unilaterais, você pode primeiro executar o teste Wald correspondente em dois lados. Em seguida, você pode usar os resultados para calcular a estatística de teste e p-valor para o teste unilateral. Letrsquos dizer que você executar a regressão seguinte: Se você deseja testar que o coeficiente de peso. Peso beta. É negativo (ou positivo), você pode começar realizando o teste de Wald para a hipótese nula de que esse coeficiente é igual a zero. O teste de Wald dado aqui é um teste F com 1 grau de liberdade de numerador e 71 graus de liberdade de denominador. A distribuição de Student está diretamente relacionada com a distribuição de F, na medida em que o quadrado da distribuição Studentrsquo com d graus de liberdade é equivalente à distribuição de F com 1 grau de liberdade de numerador e denominador de graus de liberdade. Desde que o teste F tenha 1 grau de liberdade de numerador, a raiz quadrada da estatística F é o valor absoluto da estatística t para o teste unilateral. Para determinar se esta estatística t é positiva ou negativa, você precisa determinar se o coeficiente ajustado é positivo ou negativo. Para fazer isso, você pode usar a função sign (). Em seguida, usando a função ttail () juntamente com os resultados retornados do comando de teste, você pode calcular os valores p para os testes unilaterais da seguinte maneira: No caso especial em que você está interessado em testar se um coeficiente é Maior que, menor que, ou igual a zero, você pode calcular os p-valores diretamente da saída de regressão. Quando o coeficiente estimado é positivo, como para o peso. Você pode fazer o seguinte: Valor-p 0,008 (dado na saída de regressão) Valor-p 0,567 / 2 0,284 Por outro lado, se você deseja executar um teste como H 0. Beta peso lt 1, você não pode calcular o p-valor diretamente a partir da regressão resultados. Aqui você teria que executar o teste de Wald primeiro. Testes z unilaterais Na saída para determinados comandos de estimativa, você verá que as estatísticas z são relatadas em vez de estatísticas t. Nesses casos, quando você usar o comando de teste, você obterá um teste de qui-quadrado em vez de um teste de F. A relação entre a distribuição normal padrão e a distribuição do qui-quadrado é similar à relação entre a distribuição de Student e a distribuição de F. De fato, a raiz quadrada da distribuição do qui-quadrado com 1 grau de liberdade é a distribuição normal padrão. Portanto, testes z unilaterais podem ser realizados de forma semelhante aos testes t unilaterais. Por exemplo, aqui o comando de teste retorna r (chi2). Que pode ser usado junto com a função normal () para calcular os p-valores apropriados. Finalmente, se você deseja realizar um teste de desigualdade para dois de seus coeficientes, como H 0. Beta idade gt beta grau. Você deve primeiro executar o seguinte teste Wald: Em seguida, calcule o valor p adequado: Novamente, esta abordagem (realizar um teste Wald e usar os resultados para calcular o valor p para um teste unilateral) é apropriada apenas quando o Wald F Estatística tem 1 grau de liberdade no numerador ou o Wald chi-quadrado estatística tem 1 grau de liberdade. As relações de distribuição discutidas acima não são válidas se esses graus de liberdade forem maiores do que 1. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Anotada Teste T de saída O comando ttest executa testes t para uma amostra, duas amostras e observações emparelhadas. O teste t de amostra única compara a média da amostra com um dado número (que você fornece). O teste t de amostras independentes compara a diferença nas médias dos dois grupos com um dado valor (normalmente 0). Em outras palavras, ele testa se a diferença na média é 0. A amostra dependente ou teste t pareado compara a diferença nas médias das duas variáveis ​​medidas sobre o mesmo conjunto de sujeitos para um dado número (normalmente 0), Tendo em conta o facto de os resultados não serem independentes. Em nossos exemplos, usaremos o conjunto de dados hsb2. Teste t de amostra simples O teste t de amostra simples testa a hipótese nula de que a média da população é igual ao número especificado especificado utilizando a opção write. Para este exemplo, vamos comparar a média da variável write com um valor pré-selecionado de 50. Na prática, o valor contra o qual a média é comparada deve ser baseado em considerações teóricas e / ou pesquisa anterior. Stata calcula a estatística t e seu valor p sob o pressuposto de que a amostra vem de uma distribuição aproximadamente normal. Se o valor p associado ao teste t é pequeno (0,05 é frequentemente usado como o limiar), há evidências de que a média é diferente do valor da hipótese. Se o valor p associado ao teste t não é pequeno (p gt 0,05), então a hipótese nula não é rejeitada e você pode concluir que a média não é diferente do valor da hipótese. Neste exemplo, a estatística t é 4.1403 com 199 graus de liberdade. O valor de p de duas colunas correspondente é .0001, que é inferior a 0,05. Concluímos que a média da variável write é diferente de 50. Resumo Estatísticas a. Variável - Esta é a variável para a qual o teste foi conduzido. B. Obs - O número de observações válidas (isto é, não faltantes) usadas no cálculo do teste t. C. Média - Esta é a média da variável. D. Std. Errar. - Este é o desvio padrão estimado da média da amostra. Se extraíssemos amostras repetidas de tamanho 200, seria de esperar que o desvio padrão das médias da amostra fosse próximo do erro padrão. O desvio padrão da distribuição da média da amostra é estimado como o desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra: 9,478586 / (sqrt (200)) .6702372. E. Std. Dev. - Este é o desvio padrão da variável. F. 95 Intervalo de Confiança - Estes são o limite inferior e superior do intervalo de confiança para a média. Um intervalo de confiança para a média especifica um intervalo de valores dentro do qual o parâmetro de população desconhecida, neste caso a média, pode estar. É dado por onde s é o desvio da amostra das observações e N é o número de observações válidas. O valor de t na fórmula pode ser calculado ou encontrado em qualquer livro de estatísticas com os graus de liberdade sendo N-1 eo valor de p sendo 1- alpha / 2, onde alfa é o nível de confiança e por padrão é .95. Estatísticas de Teste g. Mean - Esta é a média que está sendo testada. Neste exemplo, é a média de escrita. H. T - Esta é a estatística t de Student. É a proporção da diferença entre a média da amostra eo número dado para o erro padrão da média: (52.775 - 50) / .6702372 4.1403. Como o erro padrão da média mede a variabilidade da média da amostra, quanto menor o erro padrão da média, maior a probabilidade de que nossa média da amostra esteja próxima da média da população real. Isto é ilustrado pelos seguintes três números. Nos três casos, a diferença entre as médias da população é a mesma. Mas com grande variabilidade das médias da amostra, segundo gráfico, duas populações sobrepõem-se muito. Portanto, a diferença pode muito bem vir por acaso. Por outro lado, com pequena variabilidade, a diferença é mais clara como no terceiro gráfico. Quanto menor o erro padrão da média, maior a magnitude do valor t e, portanto, menor o valor p. Eu. Ho - Esta é a hipótese nula que está sendo testada. O teste t de amostra simples avalia a hipótese nula de que a média da população é igual ao número dado. J. Graus de liberdade - Os graus de liberdade para o teste t de amostra simples são simplesmente o número de observações válidas menos 1. Perdemos um grau de liberdade porque estimamos a média da amostra. Usamos algumas das informações dos dados para estimar a média, portanto não está disponível para uso para o teste e os graus de liberdade explicam isso. K. Pr (T t t t), Pr (T gt t) - Estes são os p-valores unidimensionais avaliando o nulo contra as alternativas que a média é menor que 50 (teste à esquerda) e maior que 50 (teste à direita). Essas probabilidades são calculadas usando a distribuição t. Novamente, se o valor de p é menor que o nível alfa pré-especificado (normalmente .05 ou .01) concluiremos que a média é estatisticamente significativa maior ou menor que o valor hipotético nulo. eu. Pr (T gt t) - Este é o valor p de duas colunas avaliando o nulo contra uma alternativa de que a média não é igual a 50. É igual à probabilidade de observar um maior valor absoluto de t sob a hipótese nula. Se o valor de p é menor que o nível alfa pré-especificado (normalmente 0,05 ou 0,01, aqui o primeiro), concluiremos que a média é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para escrita é menor que 0,05. Assim, concluímos que a média para escrita é diferente de 50. Teste t pareado Um teste t pareado (ou quotdependente) é usado quando as observações não são independentes uma da outra. No exemplo abaixo, os mesmos alunos tomaram tanto a escrita quanto o teste de leitura. Assim, você esperaria que houvesse uma relação entre as pontuações fornecidas por cada aluno. O teste t pareado é responsável por isso. Para cada estudante, nós estamos olhando essencialmente as diferenças nos valores das duas variáveis ​​e testando se a média destas diferenças é igual a zero. Neste exemplo, a estatística t é 0,8673 com 199 graus de liberdade. O valor p correspondente de duas colas é 0,3868, que é superior a 0,05. Conclui-se que a diferença média de leitura e escrita não é diferente de 0. Estatísticas resumidas a. Variável - Esta é a lista de variáveis ​​usadas no teste. B. Obs - O número de observações válidas (isto é, não faltantes) usadas no cálculo do teste t. C. Média - Esta é a lista das médias das variáveis. A última linha exibe a diferença simples entre as duas médias. D. Std. Errar. - Este é o desvio padrão estimado da média da amostra. Se extraíssemos amostras repetidas de tamanho 200, seria de esperar que o desvio padrão das médias da amostra fosse próximo do erro padrão. O desvio padrão da distribuição da média da amostra é estimado como o desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra. Isto fornece uma medida da variabilidade da média da amostra. O Teorema do Limite Central nos diz que os meios da amostra são aproximadamente distribuídos normalmente quando o tamanho da amostra é 30 ou maior. E. Std. Dev. - Este é o desvio padrão da variável. A última linha exibe o desvio padrão para a diferença que não é igual à diferença de desvios padrão para cada grupo. F. 95 Intervalo de Confiança - Estes são o limite inferior e superior do intervalo de confiança para a média. Um intervalo de confiança para a média especifica um intervalo de valores dentro do qual o parâmetro de população desconhecida, neste caso a média, pode estar. É dado por onde s é o desvio da amostra das observações e N é o número de observações válidas. O valor de t na fórmula pode ser calculado ou encontrado em qualquer livro de estatísticas com os graus de liberdade sendo N-1 eo valor de p sendo 1- alpha / 2, onde alfa é o nível de confiança e por padrão é .95. Estatística de teste média (leitura) gt 0.8673 h Ho: média (dif) 0 grau de liberdade 199 i Ha: média (dif) lt 0 k Ha: média (dif) 0 j Ha: média (dif) Gt 0 k Pr (T lt t) 0,8066 Pr (T gt t) 0,3868 Pr (T gt t) 0,1934 g. Média (diff) média (var1 - var2) - O teste t para grupos dependentes forma uma única amostra aleatória a partir da diferença de pares, que funciona como um teste simples de amostra aleatória. A interpretação para o valor t e o valor p é a mesma que no caso da amostra aleatória simples. H. T - Esta é a estatística t. É a relação entre a média da diferença eo erro padrão da diferença (.545 / .6283822). Eu. Graus de liberdade - Os graus de liberdade para as observações emparelhadas é simplesmente o número de observações menos 1. Isto é porque o teste é conduzido sobre uma amostra das diferenças emparelhadas. J. Pr (T gt t) - Este é o valor p de duas caudas calculado usando a distribuição t. É a probabilidade de observar um maior valor absoluto de t sob a hipótese nula. Se o valor de p é menor que o nível alfa pré-especificado (geralmente 0,05 ou 0,01, aqui o primeiro) concluiremos que a diferença média entre escrever e ler é estatisticamente significativamente diferente de zero. Por exemplo, o valor p para a diferença entre escrever e ler é maior que 0,05, portanto, concluímos que a diferença média não é estatisticamente significativamente diferente de 0. k. Pr (T lt t), Pr (T gt t) - Estes são os p-valores unidimensionais para avaliar as alternativas (valor médio lt H0) e (valor médio gt H0), respectivamente. Como Pr (T gt t). Eles são calculados usando a distribuição t. Novamente, se o valor de p é menor que o nível alfa pré-especificado (normalmente 0,05 ou 0,01), concluiremos que a diferença média é estatisticamente significativa maior ou menor que zero. Teste de grupo independente t Este teste t foi concebido para comparar médias de mesma variável entre dois grupos. No nosso exemplo, comparamos a pontuação média de escrita entre o grupo de estudantes do sexo feminino eo grupo de estudantes do sexo masculino. Idealmente, estes sujeitos são seleccionados aleatoriamente a partir de uma população maior de indivíduos. O teste pressupõe que as variâncias para as duas populações são as mesmas. A interpretação para o p-valor é a mesma que em outro tipo de t-testes. Neste exemplo, a estatística t é -3,7341 com 198 graus de liberdade. O valor p correspondente de duas colunas é 0,0002, que é inferior a 0,05. Conclui-se que a diferença de médias na escrita entre homens e mulheres é diferente de 0. Estatísticas Recentes a. Grupo - Esta coluna dá categorias da variável independente, no nosso caso feminino. Esta variável é especificada pela instrução by (female). B. Obs - Este é o número de observações válidas (isto é, não faltantes) em cada grupo. C. Média - Esta é a média da variável dependente para cada nível da variável independente. Na última linha é dada a diferença entre os meios. D. Std Err - Este é o erro padrão da média para cada nível da variável independente. E. Std Dev - Este é o desvio padrão da variável dependente para cada um dos níveis da variável independente. Na última linha é dado o desvio padrão para a diferença. F. 95 Conf. Intervalo - Estes são os limites de confiança inferior e superior dos meios. Diferença 0 graus de liberdade 198 i Ha: diff lt 0 k Ha: dif 0 j Ha: dif gt 0 k Pr (T t tt) 0,0001 Pr (T gt t) 0,0002 Pr (T gt t) 0,9999 g. Diff mean (male) - mean (female) - O teste t compara as médias entre os dois grupos, sendo a hipótese nula que a diferença entre as médias é zero. H. T - Esta é a estatística t. É a relação entre a média da diferença eo erro padrão da diferença: (-4.869947 / 1.304191). Eu. Graus de liberdade - Os graus de liberdade para as observações emparelhadas é simplesmente o número de observações menos 2. Usamos um grau de liberdade para estimar a média de cada grupo, e porque há dois grupos, subtrai dois graus de liberdade. J. Pr (T gt t) - Este é o valor p de duas caudas calculado usando a distribuição t. É a probabilidade de observar um maior valor absoluto de t sob a hipótese nula. Se o valor de p é menor que o nível alfa pré-especificado (normalmente 0,05 ou 0,01, aqui o primeiro), concluiremos que a média é estatisticamente significativamente diferente de zero. Por exemplo, o p-valor para a diferença entre fêmeas e machos é inferior a 0,05, portanto, concluímos que a diferença de médias é estatisticamente significativa diferente de 0. k. Pr (T lt t), Pr (Tgtt) - Estes são os p-valores unidimensionais para as hipóteses alternativas (diferença média lt 0) e (diferença média gt 0), respectivamente. Como Pr (T gt t). Eles são calculados usando a distribuição t. Como de costume, se o valor de p for menor que o nível alfa pré-especificado (normalmente 0,05 ou 0,01), concluiremos que a média é estatisticamente significativa maior ou menor que zero. Teste T de amostra independente, assumindo variâncias desiguais Vamos novamente comparar as médias da mesma variável entre dois grupos. No nosso exemplo, comparamos a pontuação média de escrita entre o grupo de estudantes do sexo feminino eo grupo de estudantes do sexo masculino. Idealmente, estes sujeitos são seleccionados aleatoriamente a partir de uma população maior de indivíduos. Anteriormente, assumimos que as variâncias para as duas populações são as mesmas. Aqui, vamos permitir variações desiguais em nossas amostras. A interpretação para o p-valor é a mesma que em outro tipo de t-testes. Neste exemplo, a estatística t é -3.6564 com 169.707 graus de liberdade. O valor de p correspondente de duas colunas é 0,0003, que é inferior a 0,05. Concluímos que a diferença de médias na escrita entre machos e fêmeas é diferente de 0, permitindo diferenças nas variâncias entre os grupos. Estatísticas resumidas a. Grupo - A lista dos grupos cujos meios estão sendo comparados. B. Obs. - Este é o número de observações válidas (ou seja, não-ausente) de cada grupo, bem como o combinado. C. Média - Esta é a média da variável de interesse para cada grupo que estamos comparando. Na terceira linha é dada a média combinada e na última linha é dada a diferença entre as médias. D. Std. Errar. - Este é o erro padrão da média. E. Std. Dev. - Este é o desvio padrão da variável dependente para cada um dos grupos. F. Intervalo de Confiança - Estes são os limites inferior e superior para o intervalo de confiança de 95 da média para cada um dos grupos. Estatísticas de Teste g. Diff - Este é o valor que estamos testando: a diferença na média do grupo masculino e do grupo feminino. H. T - Esta é a estatística t. É a estatística de teste que usaremos para avaliar nossa hipótese. É a razão entre a média eo erro padrão da diferença dos dois grupos: (-4.869947 / 1.331894). Eu. Satterthwaites graus de liberdade - Satterthwaites é uma forma alternativa de calcular os graus de liberdade que leva em conta que as variâncias são assumidas como desiguais. É uma abordagem mais conservadora do que usar os graus tradicionais de liberdade. Este é o grau de liberdade sob este cálculo. J. Pr (T gt t) - Este é o valor p de duas caudas calculado usando a distribuição t. É a probabilidade de observar um maior valor absoluto de t sob a hipótese nula. Se o valor de p é menor que o nível alfa pré-especificado (geralmente 0,05 ou 0,01, aqui o primeiro), concluiremos que a diferença de médias é estatisticamente significativamente diferente de zero. Por exemplo, o p-valor para a diferença entre fêmeas e machos é inferior a 0,05, portanto, concluímos que a diferença de médias é estatisticamente significativamente diferente de 0. l. Pr (T lt t), Pr (T gt t) - Estes são os p-valores unidimensionais para as hipóteses alternativas (diferença lt 0) e (diferença gt 0), respectivamente. Como Pr (T gt t). Eles são calculados usando a distribuição t. Como de costume, se o valor de p for menor que o nível alfa pré-especificado (normalmente 0,05 ou 0,01), concluiremos que a média é estatisticamente significativa maior ou menor que zero. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Regressão com Stata Capítulo 1 - Capítulo de Regressão Simples e Múltipla Esquema 1.0 Introdução 1.1 A Primeira análise de regressão 1.2 Exame de dados 1.3 Regressão linear simples 1.4 Regressão múltipla 1.5 Variáveis ​​de transformação 1.6 Resumo 1.7 Auto-avaliação 1.8 Para mais informações Este livro é composto por quatro capítulos que abrangem uma variedade de tópicos sobre o uso de Stata para regressão. Devemos enfatizar que este livro é sobre análise de quotdata e que demonstra como Stata pode ser usado para análise de regressão, ao contrário de um livro que abrange a base estatística de regressão múltipla. Suponhamos que você tenha tido pelo menos um curso de estatística abrangendo análises de regressão e que você tenha um livro de regressão que possa usar como referência (consulte a página Regressão com Stata e nossa página de Livros de estatísticas para empréstimos para obter os livros de análise de regressão recomendados). Este livro é projetado para aplicar o seu conhecimento de regressão, combiná-lo com a instrução sobre Stata, para realizar, compreender e interpretar análises de regressão. Este primeiro capítulo abrangerá tópicos em regressão simples e múltipla, bem como as tarefas de suporte que são importantes na preparação para analisar seus dados, p. Verificar dados, familiarizar-se com o arquivo de dados e examinar a distribuição de suas variáveis. Vamos ilustrar os fundamentos da regressão simples e múltipla e demonstrar a importância de inspecionar, verificar e verificar seus dados antes de aceitar os resultados de sua análise. Em geral, esperamos mostrar que os resultados de sua análise de regressão podem ser enganosos sem mais sondagem de seus dados, o que poderia revelar relacionamentos que uma análise casual poderia ignorar. Neste capítulo, e em capítulos subseqüentes, estaremos usando um arquivo de dados que foi criado por amostragem aleatória de 400 escolas primárias do Departamento de Educação da Califórnia API 2000 dataset. Este arquivo de dados contém uma medida do desempenho acadêmico da escola, bem como outros atributos das escolas primárias, tais como, tamanho da turma, inscrição, pobreza, etc Você pode acessar este arquivo de dados na web a partir do Stata com o comando Stata use como mostrado abaixo. Nota: Não digite o ponto inicial no comando - o ponto é uma convenção para indicar que a instrução é um comando Stata. Depois de ter lido o arquivo, você provavelmente deseja armazenar uma cópia dele no seu computador (para que você não precisa lê-lo na web cada vez). Vamos dizer que você está usando o Windows e deseja armazenar o arquivo em uma pasta chamada c: regstata (você pode escolher um nome diferente, se quiser). Primeiro, você pode fazer esta pasta dentro do Stata usando o comando mkdir. Podemos então mudar para esse diretório usando o comando cd. E, em seguida, se você salvar o arquivo será salvo na pasta c: regstata. Permite salvar o arquivo como elemapi. Agora o arquivo de dados é salvo como c: regstataelemapi. dta e você poderia sair Stata eo arquivo de dados ainda estaria lá. Quando você deseja usar o arquivo no futuro, basta usar o comando cd para mudar para o diretório c: regstata (ou o que você chamou) e, em seguida, usar o arquivo elemapi. 1.1 Uma primeira análise de regressão Permite mergulhar diretamente e realizar uma análise de regressão usando as variáveis ​​api00. Acsk3. Refeições e completo. Estas medem o desempenho acadêmico da escola (api00), o tamanho médio das aulas no pré-escolar até o 3º ano (acsk3), a percentagem de alunos que recebem refeições gratuitas - que é um indicador de pobreza ea percentagem de professores que têm Credenciais de ensino completo (completo). Esperamos que um melhor desempenho acadêmico seja associado ao menor número de alunos, menos estudantes recebendo refeições gratuitas e uma maior porcentagem de professores com credenciais de ensino completo. Abaixo, mostramos o comando Stata para testar este modelo de regressão seguido da saída Stata. Vamos focar nos três preditores, se eles são estatisticamente significativos e, em caso afirmativo, a direção da relação. O tamanho médio de classe (acsk3.b-2.68), não é estatisticamente significante no nível 0.05 (p0.055), mas apenas assim. O coeficiente é negativo, o que indicaria que o tamanho maior da turma está relacionado ao menor desempenho acadêmico - o que esperamos. Em seguida, o efeito das refeições (b-3,70, pág. 000) é significativo eo seu coeficiente é negativo, indicando que quanto maior a proporção de alunos recebendo refeições gratuitas, menor o desempenho acadêmico. Por favor, note que não estamos dizendo que refeições gratuitas estão causando menor desempenho acadêmico. A variável refeições está altamente relacionada ao nível de renda e funciona mais como um proxy para a pobreza. Assim, níveis mais elevados de pobreza estão associados a um menor desempenho acadêmico. Este resultado também faz sentido. Finalmente, a percentagem de professores com credenciais completas (full b0.11, p.232) parece não estar relacionada com o desempenho acadêmico. Isso parece indicar que a porcentagem de professores com credenciais completas não é um fator importante na previsão do desempenho acadêmico - este resultado foi um pouco inesperado. De acordo com esses resultados, concluímos que os tamanhos mais baixos das turmas estão relacionados ao maior desempenho, que menos alunos recebendo refeições gratuitas estão associados ao maior desempenho e que a porcentagem de professores com credenciais completas foi Não relacionados ao desempenho acadêmico nas escolas. Antes de escrever isso para publicação, devemos fazer uma série de verificações para se certificar de que podemos apoiar firmemente estes resultados. Começamos ficando mais familiarizados com o arquivo de dados, fazendo a verificação de dados preliminares, procurando erros nos dados. 1.2 Examinando dados Primeiro, vamos usar o comando describe para aprender mais sobre este arquivo de dados. Podemos verificar quantas observações tem e ver os nomes das variáveis ​​que contém. Para fazer isso, simplesmente digite Nós não entraremos em todos os detalhes desta saída. Observe que há 400 observações e 21 variáveis. Temos variáveis ​​sobre desempenho acadêmico em 2000 e 1999 ea mudança no desempenho, api00. Api99 e crescimento respectivamente. Temos também várias características das escolas, p. Tamanho da turma, educação dos pais, porcentagem de professores com credenciais completas e de emergência e número de alunos. Observe que quando fizemos nossa análise de regressão original, ele disse que havia 313 observações, mas o comando descrever indica que temos 400 observações no arquivo de dados. Se você quiser saber mais sobre o arquivo de dados, você pode listar todas ou algumas das observações. Por exemplo, abaixo listamos as primeiras cinco observações. Isso ocupa muito espaço na página, mas não nos dá muita informação. Listar nossos dados pode ser muito útil, mas é mais útil se listar apenas as variáveis ​​que você está interessado. Vamos listar as primeiras 10 observações para as variáveis ​​que analisamos em nossa primeira análise de regressão. Vemos que entre as primeiras 10 observações, temos quatro valores em falta para as refeições. É provável que os dados em falta para as refeições tenham algo a ver com o facto de o número de observações na nossa primeira análise de regressão ser 313 e não 400. Outra ferramenta útil para aprender sobre as suas variáveis ​​é o comando codebook. Vamos fazer codebook para as variáveis ​​que incluímos na análise de regressão, bem como a variável yrrnd. Nós intercalamos alguns comentários sobre esta saída entre colchetes e em negrito. O comando codebook descobriu uma série de peculiaridades dignas de exame mais aprofundado. Vamos usar o comando summary para aprender mais sobre essas variáveis. Como mostrado abaixo, o comando sumário também revela o grande número de valores faltantes para as refeições (400 - 315 85) e vemos o mínimo incomum para acsk3 de -21. Permite obter um resumo mais detalhado para acsk3. No Stata, a vírgula após a lista de variáveis ​​indica que as opções seguem, neste caso, a opção é detalhe. Como você pode ver abaixo, a opção detalhe dá-lhe os percentis, os quatro maiores e menores valores, medidas de tendência central e variância, etc Note que resumir. E outros comandos, podem ser abreviados: poderíamos ter digitado soma acsk3, d. Parece que alguns tamanhos de classe de alguma forma se tornaram negativos, como se um sinal negativo fosse digitado incorretamente na frente deles. Vamos fazer uma tabulação de tamanho de classe para ver se isso parece plausível. Na verdade, parece que alguns tamanhos de classe de alguma forma tem sinais negativos colocados na frente deles. Vejamos o número da escola e do distrito para essas observações para ver se eles vêm do mesmo distrito. Na verdade, todos eles vêm do distrito 140. Vejamos todas as observações para o distrito 140. Todas as observações do distrito 140 parecem ter esse problema. Quando você encontrar esse problema, você deseja voltar para a fonte original dos dados para verificar os valores. Temos de revelar que fabricamos este erro para fins ilustrativos, e que os dados reais não tinham tal problema. Vamos fingir que verificamos com o distrito 140 e houve um problema com os dados lá, um hífen foi acidentalmente colocado na frente dos tamanhos de classe tornando-os negativos. Vamos fazer uma nota para corrigir isso Vamos continuar a verificar os nossos dados. Vamos dar uma olhada em alguns métodos gráficos para inspecionar dados. Para cada variável, é útil para inspecioná-los usando um histograma, boxplot e parcela de caule e folha. Estes gráficos podem mostrar-lhe informações sobre a forma de suas variáveis ​​melhor do que estatísticas numéricas simples podem. Já sabemos sobre o problema com acsk3. Mas vamos ver como esses métodos gráficos teriam revelado o problema com essa variável. Primeiro, mostramos um histograma para acsk3. Isso nos mostra as observações onde o tamanho médio das turmas é negativo. Da mesma forma, um boxplot teria chamado essas observações para a nossa atenção também. Você pode ver a maneira de observações negativas periféricas na parte inferior do boxplot. Finalmente, uma parcela de haste-e-folha também teria ajudado a identificar essas observações. Este gráfico mostra os valores exatos das observações, indicando que havia três -21s, dois -20s, e um -19. Recomendamos traçar todos esses gráficos para as variáveis ​​que você estará analisando. Vamos omitir, devido a considerações de espaço, mostrando esses gráficos para todas as variáveis. No entanto, ao examinar as variáveis, o enredo de haste-e-folha para cheio parecia bastante incomum. Até agora, não vimos nada de problemático com esta variável, mas olhe para o gráfico de haste e folha para o total abaixo. Mostra 104 observações onde a percentagem com uma credencial completa é inferior a um. Isso é mais de 25 das escolas, e parece muito incomum. Vamos olhar para a distribuição de freqüência de cheio para ver se podemos entender isso melhor. Os valores vão de 0,42 para 1,0, depois saltam para 37 e vão para cima a partir daí. Parece que algumas das percentagens são realmente introduzidas como proporções, e. 0,42 foi inserido em vez de 42 ou 0,96 que realmente deveria ter sido 96. Vamos ver de que distrito (s) esses dados vieram. Observamos que todas as 104 observações em que o total foi menor ou igual a um veio do distrito 401. Vamos contar quantas observações existem no distrito 401 usando o comando de contagem e vemos que o distrito 401 tem 104 observações. Todas as observações deste distrito parecem ser registradas como proporções em vez de percentagens. Again, let us state that this is a pretend problem that we inserted into the data for illustration purposes. If this were a real life problem, we would check with the source of the data and verify the problem. We will make a note to fix this problem in the data as well. Another useful graphical technique for screening your data is a scatterplot matrix. While this is probably more relevant as a diagnostic tool searching for non-linearities and outliers in your data, it can also be a useful data screening tool, possibly revealing information in the joint distributions of your variables that would not be apparent from examining univariate distributions. Lets look at the scatterplot matrix for the variables in our regression model. This reveals the problems we have already identified, i. e. the negative class sizes and the percent full credential being entered as proportions. We have identified three problems in our data. There are numerous missing values for meals . there were negatives accidentally inserted before some of the class sizes ( acsk3 ) and over a quarter of the values for full were proportions instead of percentages. The corrected version of the data is called elemapi2 . Lets use that data file and repeat our analysis and see if the results are the same as our original analysis. First, lets repeat our original regression analysis below. Now, lets use the corrected data file and repeat the regression analysis. We see quite a difference in the results In the original analysis (above), acsk3 was nearly significant, but in the corrected analysis (below) the results show this variable to be not significant, perhaps due to the cases where class size was given a negative value. Likewise, the percentage of teachers with full credentials was not significant in the original analysis, but is significant in the corrected analysis, perhaps due to the cases where the value was given as the proportion with full credentials instead of the percent. Also, note that the corrected analysis is based on 398 observations instead of 313 observations, due to getting the complete data for the meals variable which had lots of missing values. From this point forward, we will use the corrected, elemapi2 . data file. You might want to save this on your computer so you can use it in future analyses. So far we have covered some topics in data checking/verification, but we have not really discussed regression analysis itself. Lets now talk more about performing regression analysis in Stata. 1.3 Simple Linear Regression Lets begin by showing some examples of simple linear regression using Stata. In this type of regression, we have only one predictor variable. This variable may be continuous, meaning that it may assume all values within a range, for example, age or height, or it may be dichotomous, meaning that the variable may assume only one of two values, for example, 0 or 1. The use of categorical variables with more than two levels will be covered in Chapter 3. There is only one response or dependent variable, and it is continuous. In Stata, the dependent variable is listed immediately after the regress command followed by one or more predictor variables. Lets examine the relationship between the size of school and academic performance to see if the size of the school is related to academic performance. For this example, api00 is the dependent variable and enroll is the predictor. Lets review this output a bit more carefully. First, we see that the F-test is statistically significant, which means that the model is statistically significant. The R-squared of .1012 means that approximately 10 of the variance of api00 is accounted for by the model, in this case, enroll . The t-test for enroll equals -6.70, and is statistically significant, meaning that the regression coefficient for enroll is significantly different from zero. Note that (-6.70) 2 44.89, which is the same as the F-statistic (with some rounding error). The coefficient for enroll is -.1998674, or approximately -.2, meaning that for a one unit increase in enroll . we would expect a .2-unit decrease in api00 . In other words, a school with 1100 students would be expected to have an api score 20 units lower than a school with 1000 students. The constant is 744.2514, and this is the predicted value when enroll equals zero. In most cases, the constant is not very interesting. We have prepared an annotated output which shows the output from this regression along with an explanation of each of the items in it. In addition to getting the regression table, it can be useful to see a scatterplot of the predicted and outcome variables with the regression line plotted. After you run a regression, you can create a variable that contains the predicted values using the predict command. You can get these values at any point after you run a regress command, but remember that once you run a new regression, the predicted values will be based on the most recent regression. To create predicted values you just type predict and the name of a new variable Stata will give you the fitted values. For this example, our new variable name will be fv . so we will type If we use the list command, we see that a fitted value has been generated for each observation. Below we can show a scatterplot of the outcome variable, api00 and the predictor, enroll . We can combine scatter with lfit to show a scatterplot with fitted values. As you see, some of the points appear to be outliers. If you use the mlabel(snum) option on the scatter command, you can see the school number for each point. This allows us to see, for example, that one of the outliers is school 2910. As we saw earlier, the predict command can be used to generate predicted (fitted) values after running regress . You can also obtain residuals by using the predict command followed by a variable name, in this case e . with the residual option. This command can be shortened to predict e, resid or even predict e, r . The table below shows some of the other values can that be created with the predict option. 1.4 Multiple Regression Now, lets look at an example of multiple regression, in which we have one outcome (dependent) variable and multiple predictors. Before we begin with our next example, we need to make a decision regarding the variables that we have created, because we will be creating similar variables with our multiple regression, and we dont want to get the variables confused. For example, in the simple regression we created a variable fv for our predicted (fitted) values and e for the residuals. If we want to create predicted values for our next example we could call the predicted value something else, e. g. fvmr . but this could start getting confusing. We could drop the variables we have created, using drop fv e . Instead, lets clear out the data in memory and use the elemapi2 data file again. When we start new examples in future chapters, we will clear out the existing data file and use the file again to start fresh. For this multiple regression example, we will regress the dependent variable, api00 . on all of the predictor variables in the data set. Lets examine the output from this regression analysis. As with the simple regression, we look to the p-value of the F-test to see if the overall model is significant. With a p-value of zero to four decimal places, the model is statistically significant. The R-squared is 0.8446, meaning that approximately 84 of the variability of api00 is accounted for by the variables in the model. In this case, the adjusted R-squared indicates that about 84 of the variability of api00 is accounted for by the model, even after taking into account the number of predictor variables in the model. The coefficients for each of the variables indicates the amount of change one could expect in api00 given a one-unit change in the value of that variable, given that all other variables in the model are held constant. For example, consider the variable ell . We would expect a decrease of 0.86 in the api00 score for every one unit increase in ell . assuming that all other variables in the model are held constant. The interpretation of much of the output from the multiple regression is the same as it was for the simple regression. We have prepared an annotated output that more thoroughly explains the output of this multiple regression analysis. You may be wondering what a 0.86 change in ell really means, and how you might compare the strength of that coefficient to the coefficient for another variable, say meals . To address this problem, we can add an option to the regress command called beta . which will give us the standardized regression coefficients. The beta coefficients are used by some researchers to compare the relative strength of the various predictors within the model. Because the beta coefficients are all measured in standard deviations, instead of the units of the variables, they can be compared to one another. In other words, the beta coefficients are the coefficients that you would obtain if the outcome and predictor variables were all transformed standard scores, also called z-scores, before running the regression. Because the coefficients in the Beta column are all in the same standardized units you can compare these coefficients to assess the relative strength of each of the predictors. In this example, meals has the largest Beta coefficient, -0.66 (in absolute value), and acsk3 has the smallest Beta, 0.013. Thus, a one standard deviation increase in meals leads to a 0.66 standard deviation decrease in predicted api00 . with the other variables held constant. And, a one standard deviation increase in acsk3 . in turn, leads to a 0.013 standard deviation increase in predicted api00 with the other variables in the model held constant. In interpreting this output, remember that the difference between the numbers listed in the Coef. column and the Beta column is in the units of measurement. For example, to describe the raw coefficient for ell you would say quotA one-unit decrease in ell would yield a .86-unit increase in the predicted api00.quot However, for the standardized coefficient (Beta) you would say, quotA one standard deviation decrease in ell would yield a .15 standard deviation increase in the predicted api00.quot The listcoef command gives more extensive output regarding standardized coefficients. It is not part of Stata, but you can download it over the internet like this. and then follow the instructions (see also How can I use the findit command to search for programs and get additional help for more information about using findit ). Now that we have downloaded listcoef . we can run it like this. Let us compare the regress output with the listcoef output. You will notice that the values listed in the Coef. t, and Pgtt values are the same in the two outputs. The values listed in the Beta column of the regress output are the same as the values in the bStadXY column of listcoef . The bStdX column gives the unit change in Y expected with a one standard deviation change in X. The bStdY column gives the standard deviation change in Y expected with a one unit change in X. The SDofX column gives that standard deviation of each predictor variable in the model. For example, the bStdX for ell is -21.3, meaning that a one standard deviation increase in ell would lead to an expected 21.3 unit decrease in api00 . The bStdY value for ell of -0.0060 means that for a one unit, one percent, increase in english language learners, we would expect a 0.006 standard deviation decrease in api00 . Because the bStdX values are in standard units for the predictor variables, you can use these coefficients to compare the relative strength of the predictors like you would compare Beta coefficients. The difference is BStdX coefficients are interpreted as changes in the units of the outcome variable instead of in standardized units of the outcome variable. For example, the BStdX for meals versus ell is -94 versus -21, or about 4 times as large, the same ratio as the ratio of the Beta coefficients. We have created an annotated output that more thoroughly explains the output from listcoef . So far, we have concerned ourselves with testing a single variable at a time, for example looking at the coefficient for ell and determining if that is significant. We can also test sets of variables, using the test command, to see if the set of variables are significant. First, lets start by testing a single variable, ell . using the test command. If you compare this output with the output from the last regression you can see that the result of the F-test, 16.67, is the same as the square of the result of the t-test in the regression (-4.0832 16.67). Note that you could get the same results if you typed the following since Stata defaults to comparing the term(s) listed to 0. Perhaps a more interesting test would be to see if the contribution of class size is significant. Since the information regarding class size is contained in two variables, acsk3 and acs46 . we include both of these with the test command. The significant F-test, 3.95, means that the collective contribution of these two variables is significant. One way to think of this, is that there is a significant difference between a model with acsk3 and acs46 as compared to a model without them, i. e. there is a significant difference between the quotfullquot model and the quotreducedquot models. Finally, as part of doing a multiple regression analysis you might be interested in seeing the correlations among the variables in the regression model. You can do this with the correlate command as shown below. If we look at the correlations with api00 . we see meals and ell have the two strongest correlations with api00 . These correlations are negative, meaning that as the value of one variable goes down, the value of the other variable tends to go up. Knowing that these variables are strongly associated with api00 . we might predict that they would be statistically significant predictor variables in the regression model. We can also use the pwcorr command to do pairwise correlations. The most important difference between correlate and pwcorr is the way in which missing data is handled. With correlate . an observation or case is dropped if any variable has a missing value, in other words, correlate uses listwise. also called casewise, deletion. pwcorr uses pairwise deletion, meaning that the observation is dropped only if there is a missing value for the pair of variables being correlated. Two options that you can use with pwcorr . but not with correlate . are the sig option, which will give the significance levels for the correlations and the obs option, which will give the number of observations used in the correlation. Such an option is not necessary with corr as Stata lists the number of observations at the top of the output. 1.5 Transforming Variables Earlier we focused on screening your data for potential errors. In the next chapter, we will focus on regression diagnostics to verify whether your data meet the assumptions of linear regression. Here, we will focus on the issue of normality. Some researchers believe that linear regression requires that the outcome (dependent) and predictor variables be normally distributed. We need to clarify this issue. In actuality, it is the residuals that need to be normally distributed. In fact, the residuals need to be normal only for the t-tests to be valid. The estimation of the regression coefficients do not require normally distributed residuals. As we are interested in having valid t-tests, we will investigate issues concerning normality. A common cause of non-normally distributed residuals is non-normally distributed outcome and/or predictor variables. So, let us explore the distribution of our variables and how we might transform them to a more normal shape. Lets start by making a histogram of the variable enroll . which we looked at earlier in the simple regression. We can use the normal option to superimpose a normal curve on this graph and the bin(20 ) option to use 20 bins. The distribution looks skewed to the right. You may also want to modify labels of the axes. For example, we use the xlabel() option for labeling the x-axis below, labeling it from 0 to 1600 incrementing by 100. Histograms are sensitive to the number of bins or columns that are used in the display. An alternative to histograms is the kernel density plot, which approximates the probability density of the variable. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. Stata implements kernel density plots with the kdensity command. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. Now lets make a boxplot for enroll . using graph box command. Note the dots at the top of the boxplot which indicate possible outliers, that is, these data points are more than 1.5(interquartile range) above the 75th percentile. This boxplot also confirms that enroll is skewed to the right. There are three other types of graphs that are often used to examine the distribution of variables symmetry plots, normal quantile plots and normal probability plots. A symmetry plot graphs the distance above the median for the i-th value against the distance below the median for the i-th value. A variable that is symmetric would have points that lie on the diagonal line. As we would expect, this distribution is not symmetric. A normal quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. qnorm is sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. Finally, the normal probability plot is also useful for examining the distribution of variables. pnorm is sensitive to deviations from normality nearer to the center of the distribution. Again, we see indications of non-normality in enroll . Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

Comments

Popular posts from this blog

Mbcfx Forex Cargo

Jamuddin hj sulaiman forex conversor Jamuddin hj sulaiman forex conversor As configurações podem ser ajustadas para se adequar às características de títulos específicos ou estilos de negociação. Desde opção jamuddin hj sulaiman forex conversor será o mesmo para qualquer mês assumindo as condições são as mesmas, eu posso estimar o que o potencial valor de rolo pode ser para rolar outubro a novembro. Sua conta pode armazenar moedas diferentes ao mesmo tempo, e intermitente 4 milímetros fios duplos em 152. Agradecemos antecipadamente. Isso encoraja um fórum justo e aberto, sem discussões de ida e volta e críticas desnecessárias. Clique na pasta indicadores. E eu definitivamente segundo o Crucial SSD rmendation, eles fazem drives incríveis. 15 bilhões de analistas tinham previsto. Indicadores adicionais para você fabricantes de dinheiro sério: Você poderia tentar adicionar os pontos de pivô Fibonnacci para isso para que você será capaz de ver onde o preço vai querer retraçar. Os serviços m...

Statistical Arbitrage Forex

Advanced Statistical Arbitrage V4.0 Opulen Visão Geral Stat Arb V4.0 Opulen é o mais recente produto de negociação estatística Arbitrage desenvolvido pela FX AlgoTrader. V4.0 O Opulen usa uma interface JavaFX exclusiva para controlar os parâmetros de sistema subjacentes implementados em cada gráfico executando as ferramentas arbitrais estatísticas no MetaTrader MT4. Stat Arb V4.0 Opulen foi projetado especificamente para rodar no MetaTrader MT4 com entrada e saída de pedidos totalmente automatizadas com base em parâmetros definidos pelo usuário. V4.0 O Opulen é composto de três componentes principais que são: - FXA Stat Arb V4 JFX (Um Conselheiro Especialista) FXA STD Indicador V4 JFX (Um Indicador) FXAJFXInterface. jar (O programa de interface de controle JavaFX) V4.0 Opulen constrói Sobre o sucesso do Stat Arb V3.0 com a introdução das seguintes características diferenciadoras: - Integração no FX AlgoTrader Indicador de Correlação em Tempo Real 8224 Opção de Negociação Sintética Inte...

Nifty Moving Average Database

NIFTY 50 A CNX Nifty é um índice de ações bem diversificado 50 para 22 setores da economia. Ele é usado para uma variedade de propósitos, como carteiras de fundo de benchmarking, derivativos baseados em índices e fundos de índice. A CNX Nifty é detida e administrada pela Índia Index Services e Products Ltd. (IISL), que é uma joint venture entre a NSE ea CRISIL. A IISL é a primeira empresa especializada na Índia focada no índice como um produto central. O CNX Nifty Index representa cerca de 65,87 da capitalização de mercado de flutuação das ações listadas na NSE em 31 de dezembro de 2012. O valor negociado total para os últimos seis meses encerrados em dezembro de 2012 de todos os componentes do índice é de aproximadamente 50,23 do valor negociado De todas as ações da NSE. Custo de impacto da CNX Nifty para um tamanho de carteira de Rs.50 lakh é 0,06 para o mês de dezembro de 2012. CNX Nifty é mantida profissionalmente e é ideal para negociação de derivativos. A partir de 26 de junho de...