Skip to main content

Right Censoring In Stata Forex


Stata Features Econometria Financeira Usando Stata por Simona Boffelli e Giovanni Urga fornece uma excelente introdução à análise de séries temporais e como fazê-lo em Stata para financeiro. A região do Oriente Médio e Norte da África (MENA) sofre tanto da disponibilidade de dados como da qualidade dos dados. Qualquer esforço para coletar, limpar e apresentar dados sobre a região é uma boa ideia. A 4ª Reunião do Grupo de Utilizadores da Polónia Stata terá lugar na segunda-feira, 17 de Outubro de 2016, na Escola Superior de Economia de Varsóvia, Varsóvia, Polónia. O objetivo do Stata Users Group Meeti. Rain Data: Usando Stata para automatizar a criação e rotulagem de cada variável através de loop Muitas vezes no trabalho de dados, verificamos que o mesmo trabalho precisa ser feito novamente e. A 22ª Reunião do Grupo de Utilizadores de Stata de Londres acontece na quinta-feira, 8 e sexta-feira, 9 de setembro de 2016 na Cass Business School, em Londres. A reunião do Grupo de Usuários do Stata de Londres. Últimos cursos de Stata Este curso de 2 dias fornece uma revisão e um guia prático de várias metodologias econométricas principais usadas freqüentemente para modelar os fatos estilizados da série de tempo financeiro através de modelos ARMA, modelos GARCH univariados e multivariados, análise de risco e contágio. Demonstração das técnicas alternativas serão ilustradas usando Stata. As sessões práticas dentro do curso envolvem dados de taxa de juros, preços de ativos e séries de tempo de câmbio. O curso é ministrado pelo Prof. Giovanni Urga, autor de Econometria Financeira usando Stata - Boffelli, S e Urga, G (2016), Stata Press: TX. O curso é baseado no livro e todos os participantes receberão uma cópia gratuita. La Reunion Espanola de Usuários de Stata tendra lugar en Univ. Pompeu Fabra. Barcelona el jueves 20 de Octubre de 2016 Entregue pela StataCorp, NetCourses são convenientes cursos baseados na web para a aprendizagem Stata. A nossa terceira escola de inverno Stata anual acontece em Londres de 12 a 17 de Dezembro de 2016 e compreende quatro cursos breves separados. Você pode optar por participar de uma, qualquer combinação de, ou todos os quatro cursos. Este curso compõe a metade do Stata Boot Camp juntamente com o Data Management em Stata. Welcome para o Instituto de Pesquisa Digital e Educação SAS Seminário Introdução à Análise de Sobrevivência no SAS 1. Introdução Análise de sobrevivência modelos fatores que influenciam o tempo para um evento. Os métodos ordinários de regressão por mínimos quadrados ficam aquém porque o tempo até o evento normalmente não é distribuído, eo modelo não consegue lidar com a censura, muito comum nos dados de sobrevivência, sem modificações. Métodos não paramétricos fornecem uma visão simples e rápida da experiência de sobrevivência, eo modelo de regressão proporcional de riscos de Cox continua a ser o método de análise dominante. Este seminário apresenta procedimentos e descreve a codificação necessária no SAS para modelar dados de sobrevivência através de ambos os métodos, bem como muitas técnicas para avaliar e possivelmente melhorar o modelo. Uma ênfase particular é dada a proc lifetest para estimativa não paramétrica, e proc phreg para regressão de Cox e avaliação de modelo. Nota: Uma série de sub-seções são intituladas Background. Estes fornecem alguns antecedentes estatísticos para análise de sobrevivência para o leitor interessado (e para o autor do seminário). Desde que o leitor tenha alguma experiência em análise de sobrevivência, essas seções não são necessárias para entender como executar a análise de sobrevivência em SAS. Estes podem ser removidos ou expandidos no futuro. Nota: Os termos evento e falha são usados ​​de forma intercambiável neste seminário, assim como tempo para evento e tempo de falha. 1.1 Amostra de dados Neste seminário estaremos analisando os dados de 500 indivíduos do Worcester Heart Attack Study (doravante denominado WHAS500, distribuído com Hosmer Lemeshow (2008)). Este estudo examinou vários fatores, como idade, sexo e IMC, que podem influenciar o tempo de sobrevivência após um ataque cardíaco. O tempo de seguimento para todos os participantes começa no momento da admissão no hospital após um ataque cardíaco e termina com a morte ou perda de seguimento (censura). As variáveis ​​utilizadas no presente seminário são: lenfol: duração do seguimento, terminada por morte ou censura. O resultado deste estudo. Fstat: variável de censura, perda de seguimento0, óbito1 idade: idade de internação bmi: índice de massa corporal hr: freqüência cardíaca inicial gênero: machos0, sexo feminino1 Os dados no WHAS500 estão sujeitos apenas à censura à direita. Ou seja, para alguns sujeitos que não sabemos quando eles morreram após um ataque cardíaco, mas sabemos pelo menos quantos dias eles sobreviveram. 1.2. A compreensão da mecânica por trás da análise de sobrevivência é auxiliada pela facilidade com as distribuições utilizadas, que podem ser derivadas da função de densidade de probabilidade e funções de densidade cumulativa dos tempos de sobrevivência. 1.2.1. A função de densidade de probabilidade, f (t) Imagine que temos uma variável aleatória, Time, que registra os tempos de sobrevivência. A função que descreve a probabilidade de observar o Tempo no tempo t relativo a todos os outros tempos de sobrevivência é conhecida como função de densidade de probabilidade (pdf), ou f (t). A integração do pdf em um intervalo de tempo de sobrevivência dá a probabilidade de observar um tempo de sobrevivência dentro desse intervalo. Por exemplo, se os tempos de sobrevivência eram conhecidos como exponencialmente distribuídos, então a probabilidade de observar um tempo de sobrevivência dentro do intervalo a, b é Pr (ale Timele b) intabf (t) dtintablambda e dt, onde lambda é o parâmetro de taxa de A distribuição exponencial e é igual ao recíproco do tempo médio de sobrevivência. Na maioria das vezes não saberemos a priori a distribuição gerando nossos tempos de sobrevivência observados, mas podemos obter e idéia do que parece usar métodos não paramétricos em SAS com proc univariada. Aqui vemos o pdf estimado dos tempos de sobrevivência no conjunto whas500, do qual todas as observações censuradas foram removidas para auxiliar apresentação e explicação. No gráfico acima vemos a correspondência entre pdfs e histogramas. As funções de densidade são essencialmente histogramas compreendendo caixas de pequenas larguras. No entanto, em ambos podemos ver que nestes dados, os tempos de sobrevivência mais curtos são mais prováveis, indicando que o risco de ataque cardíaco é forte inicialmente e diminui com o passar do tempo. (Tecnicamente, porque não há tempos menores que 0, não deve haver nenhum gráfico à esquerda de LENFOL0) 1.2.2. A função de distribuição cumulativa (cdf), F (t), descreve a probabilidade de observar Tempo menor ou igual a algum tempo t, ou Pr (Timele t). Acima descrevemos que a integração do pdf sobre alguma faixa produz a probabilidade de observar o Tempo nessa faixa. Assim, definimos a função de distribuição cumulativa como: Como exemplo, podemos usar o cdf para determinar a probabilidade de observar um tempo de sobrevivência de até 100 dias. A relação acima entre o cdf eo pdf também implica: No SAS, podemos graficar uma estimativa do cdf usando proc univariável. No gráfico acima podemos ver que a probabilidade de sobreviver a 200 dias ou menos é de cerca de 50. Assim, por 200 dias, um paciente tem acumulado um pouco de risco, que se acumula mais lentamente após este ponto. Em intervalos onde os tempos de eventos são mais prováveis ​​(aqui os intervalos iniciais), o cdf irá aumentar mais rapidamente. 1.2.3. A função de sobrevivência, S (t), descreve a probabilidade de sobreviver após o tempo t, ou Pr (Tempo T). Se estivéssemos a traçar a estimativa de S (t), veríamos que é um reflexo de F (t) (sobre y0 e deslocado para cima por 1). Aqui usamos proc lifetest para representar S (t). Parece que a probabilidade de sobreviver além de 1000 dias é um pouco menos de 0,2, o que é confirmado pelo cdf acima, onde vemos que a probabilidade de sobreviver 1000 dias ou menos é um pouco mais de 0,8. 1.2.4. O objetivo principal da análise de sobrevivência é tipicamente modelar a taxa de risco, que tem a seguinte relação com f (t) e S (t): A função de perigo, então, descreve a relação relativa Probabilidade de ocorrência do evento no tempo t (f (t)), condicionada à sobrevivência dos indivíduos até esse tempo t (S (t)). A taxa de risco descreve assim a taxa instantânea de falha no instante t e ignora a acumulação de perigo até ao tempo t (ao contrário de F (t) e S (t)). Podemos estimar que a função de risco é SAS, bem como usar proc lifetest: Como vimos antes, o perigo parece ser maior no início do tempo de seguimento e, em seguida, declina rapidamente e, finalmente, níveis de fora. Na verdade, a taxa de risco no início é mais de 4 vezes maior do que o risco 200 dias depois. Assim, no início do estudo, seria de esperar cerca de 0,008 falhas por dia, enquanto 200 dias mais tarde, para aqueles que sobreviveram, seria de esperar 0.002 falhas por dia. 1.2.5. Antecedentes: A função de risco cumulativo Também é útil entender é a função de risco cumulativo, que como o nome implica, cumula riscos ao longo do tempo. É calculado integrando a função de perigo ao longo de um intervalo de tempo: Pensemos novamente na função de perigo, h (t), como a taxa na qual as falhas ocorrem no tempo t. Suponhamos ainda, para fins ilustrativos, que a taxa de perigo permanece constante na frac (x número de falhas por unidade de tempo t) ao longo do intervalo 0, t. Soma em todo o intervalo, então, seria de esperar para observar x falhas, como frac t x, (assumindo falhas repetidas são possíveis, de tal forma que a falha não remove um da observação). Uma interpretação da função de risco cumulativo é, portanto, o número esperado de falhas ao longo do intervalo de tempo 0, t. Não é absolutamente necessário que a função de perigo permaneça constante para a interpretação acima da função de perigo acumulada, mas para fins ilustrativos é mais fácil calcular o número esperado de falhas, uma vez que a integração não é necessária. Expressando a relação acima como frac H (t) h (t), vemos que a função de perigo descreve a taxa na qual os riscos são acumulados ao longo do tempo. Usando as equações, h (t) frac e f (t) - frac, podemos derivar as seguintes relações entre a função de risco cumulativo e as outras funções de sobrevivência: A partir dessas equações podemos ver que a função cumulativa de risco H (t) e A função de sobrevivência S (t) tem uma relação monotônica simples, de modo que quando a função de Sobrevivência está no seu máximo no início do tempo de análise, a função de risco cumulativo está no seu mínimo. À medida que o tempo avança, a função de Sobrevivência prossegue para ele mínimo, enquanto a função de perigo cumulativo prossegue para seu máximo. A partir dessas equações também podemos ver que seria esperado que o pdf, f (t), seja alto quando h (t) a taxa de risco é alta (o início, neste estudo) e quando o hazard cumulativo H (t) é Baixo (o início, para todos os estudos). Em outras palavras, esperamos encontrar muitos tempos de falha em um dado intervalo de tempo se 1) a taxa de risco for alta e 2) ainda houver muitos sujeitos em risco. Podemos estimar a função de perigo cumulativo usando proc lifetest. Os resultados dos quais enviamos para proc sgplot para plotagem. Vemos um aumento mais acentuado no risco cumulativo no início do tempo de análise, refletindo a maior taxa de risco durante esse período. 2. Preparação e exploração dos dados 2.1. Estrutura dos dados Este seminário cobre tanto proc lifetest quanto proc phreg. E os dados podem ser estruturados em uma das duas formas de análise de sobrevivência. Em primeiro lugar, pode haver uma linha de dados por assunto, com uma variável de resultado representando o tempo de evento, uma variável que codifica se o evento ocorreu ou não (censurado) e variáveis ​​explicativas de interesse, cada uma com valores fixos em seguimento Tempo. Ambos proc lifetest e proc phreg aceitarão dados estruturados desta forma. Os dados WHAS500 são estruturados desta forma. Observe que há uma linha por assunto, com uma variável codificando o tempo para o evento, lenfol: Nós vemos na tabela acima, que o sujeito típico em nosso conjunto de dados é mais provável masculino, 70 anos de idade, com um bmi de 26,6 e coração Taxa de 87. O tempo médio para o evento (ou perda para acompanhamento) é 882,4 dias, não uma quantidade particularmente útil. Todas essas variáveis ​​variam um pouco nesses dados. A maioria das variáveis ​​são pelo menos ligeiramente correlacionadas com as outras variáveis. 3. Análise de sobrevivência não-paramétrica (descritiva) usando proc lifetest 3.1. O estimador de Kaplan Meier da função de sobrevivência 3.1.1 Antecedentes: O estimador de Kaplan Meier: O estimador de função de sobrevivência de KaplanMeier é calculado como: onde ni é o número de sujeitos em risco e di é o número de sujeitos que falham, Ti Assim, cada termo no produto é a probabilidade condicional de sobrevivência além do tempo ti, significando a probabilidade de sobreviver além do tempo ti, dado que o sujeito tem sobrevivido até o tempo ti. A estimativa da função de sobrevivência da probabilidade incondicional de sobrevivência para além do tempo t (a probabilidade de sobrevivência para além do tempo t desde o início do risco) é então obtida pela multiplicação destas probabilidades condicionais até ao tempo t em conjunto. Observando a tabela de Estimativas de Sobrevivência de Limite de Produto abaixo, para o primeiro intervalo, de 1 dia até pouco antes de 2 dias, ni 500, di 8, então hat S (1) frac 0.984. A probabilidade de sobreviver ao próximo intervalo, de 2 dias a pouco antes de 3 dias durante o qual outras 8 pessoas morreram, dado que o sujeito sobreviveu 2 dias (a probabilidade condicional) é frac 0.98374. A probabilidade incondicional de sobreviver além de 2 dias (desde o início do risco) é então S (2) frac timesfrac 0,984x0,98374,9680 3.1.2. A análise de sobrevivência muitas vezes começa com o exame da experiência de sobrevivência global através de métodos não-paramétricos, como Kaplan-Meier (produto-limite) e estimadores de vida-tabela da função de sobrevivência. Métodos não-paramétricos são atraentes porque não é necessário assumir a forma da função de sobrevivência nem da função de perigo. No entanto, os métodos não paramétricos não modelam a taxa de risco diretamente nem estimam a magnitude dos efeitos das covariáveis. No código abaixo, mostramos como obter uma tabela e um gráfico do estimador de Kaplan-Meier da função de sobrevivência de proc lifetest: A um mínimo proc lifetest requer especificação de uma variável de tempo de falha, aqui lenfol. Na instrução de tempo. Sem mais especificações, a SAS assumirá que todos os tempos relatados são falhas não censuradas, verdadeiras. Assim, como muitas observações no WHAS500 são censuradas à direita, também precisamos especificar uma variável de censura eo código numérico que identifica uma observação censurada, que é realizada abaixo com fstat (0). Todos os números entre parênteses são tratados como indicadores de censura, o que implica que todos os números excluídos dos parênteses são tratados como indicadores de que o evento ocorreu. Também especificamos a opção atrisk na instrução proc lifetest para exibir o número em risco na nossa amostra em vários pontos de tempo. Estimativas de Sobrevivência de Produto-Limite Acima vemos a tabela de estimativas de Kaplan-Meier da função de sobrevivência produzida por proc lifetest. Cada linha da tabela corresponde a um intervalo de tempo, começando no momento na coluna LENFOL para essa linha e terminando imediatamente antes da hora na coluna LENFOL na primeira linha subseqüente que tem um valor LENFOL diferente. Por exemplo, o intervalo de tempo representado pela primeira linha é de 0 dias a pouco antes de 1 dia. Neste intervalo, podemos ver que tivemos 500 pessoas em risco e que ninguém morreu, como Eventos Observados é igual a 0 ea estimativa da função de Sobrevivência é de 1.0000. Durante o intervalo seguinte, de 1 dia a pouco antes de 2 dias, 8 pessoas morreram, indicadas por 8 linhas de LENFOL1.00 e por Eventos Observados8 na última linha onde LENFOL1.00. É importante notar que as probabilidades de sobrevivência listadas na coluna Survival são incondicionais. E devem ser interpretadas como a probabilidade de sobrevivência desde o início do tempo de seguimento até ao número de dias na coluna LENFOL. Vamos dar uma olhada nos tempos de sobrevivência mais recentes na tabela: Estimativas de Sobrevivência do Produto Limite De LENFOL368 para 376, vemos que existem vários registros onde não aparece eventos. Estas são de fato observações censuradas, indicadas adicionalmente pela aparição na segunda coluna não marcada. Os sujeitos que são censurados após um determinado ponto de tempo contribuem para a função de sobrevivência até que eles abandonem o estudo, mas não são contados como uma falha. Podemos ver isso refletido na estimativa da função de sobrevivência para LENFOL382. Durante o intervalo 382,385), um dos 355 sujeitos em risco morreu, proporcionando uma probabilidade condicional de sobrevivência (a probabilidade de sobrevivência no intervalo dado, dado que o sujeito sobreviveu até o início do intervalo) neste intervalo de fração 0,9972. Vemos que a probabilidade uncoditional de sobreviver além de 382 dias é .7220, já que o chapéu S (382) 0.7220p (dias sobreviventes) vezes0.9971831, podemos resolver para p (dias sobreviventes) frac .7240. Na tabela acima, vemos que a probabilidade sobreviveu além de 363 dias 0,7240, a mesma probabilidade do que calculamos para sobreviver até 382 dias, o que implica que as observações censuradas não alteram as estimativas de sobrevivência quando deixam o estudo, Número em risco. 3.1.3. Graficando a estimativa de Kaplan-Meier Os gráficos da estimativa de Kaplan-Meier da função de sobrevivência nos permitem ver como a função de sobrevivência muda ao longo do tempo e, felizmente, são muito fáceis de gerar no SAS: Por padrão, proc lifetest grava a estimativa de Kaplan Meier, mesmo Sem a opção plot na instrução proc lifetest, então poderíamos ter usado o mesmo código de cima que produziu a tabela de estimativas de Kaplan-Meier para gerar o gráfico. No entanto, gostaríamos de adicionar faixas de confiança eo número em risco para o gráfico, então adicionamos plotssurvival (atrisk cb). A forma de função de etapa da função de sobrevivência é aparente no gráfico da estimativa de Kaplan-Meier. Quando um sujeito morre em um ponto de tempo específico, a função de passo cai, enquanto entre os tempos de falha o gráfico permanece plano. A função de sobrevivência cai mais acentuadamente no início do estudo, sugerindo que a taxa de risco é mais alta imediatamente após a hospitalização durante os primeiros 200 dias. As observações censuradas são representadas por carrapatos verticais no gráfico. Observe que a probabilidade de sobrevivência não muda quando encontramos uma observação censurada. Como a observação com o maior tempo de seguimento é censurada, a função de sobrevivência não atingirá 0. Em vez disso, a função de sobrevivência permanecerá na probabilidade de sobrevivência estimada no intervalo anterior. A função de sobrevivência é indefinida após este intervalo final em 2358 dias. A área azul-sombreada ao redor da curva de sobrevivência representa a faixa de confiança de 95, aqui bandas de confiança Hall-Wellner. Esta banda de confiança é calculada para toda a função de sobrevivência, e em qualquer intervalo dado deve ser mais amplo do que o intervalo de confiança pontual (o intervalo de confiança em torno de um único intervalo) para garantir que 95 de todos os intervalos de confiança pontuais estejam contidos nesta faixa. Muitas transformações da função sobrevivente estão disponíveis para formas alternativas de calcular intervalos de confiança através da opção conftype, embora a maioria das transformações produza intervalos de confiança muito semelhantes. 3.2. Estimador de Nelson-Aalen da função de risco cumulativo Devido à sua relação simples com a função de sobrevivência, S (t) e, a função de risco cumulativo pode ser usada para estimar a função de sobrevivência. O estimador de Nelson-Aalen é um estimador não-paramétrico da função de risco cumulativo e é dado por: onde di é o número que falhou de ni em risco no intervalo ti. O estimador é calculado, então, somando a proporção de pessoas em risco que falharam em cada intervalo até o tempo t. O estimador de Nelson-Aalen é solicitado no SAS através da opção nelson na instrução proc lifetest. A SAS apresentará as estimativas de Kaplan Meier da função de sobrevivência e as estimativas de Nelson-Aalen da função de risco cumulativo numa tabela. Função de Sobrevivência e Taxa de Risco Cumulativo Vamos confirmar a nossa compreensão do cálculo do estimador de Nelson-Aalen calculando o risco cumulativo estimado no dia 3: hat H (3) frac frac frac 0.0385, que corresponde ao valor na tabela. A interpretação desta estimativa é que esperamos 0.0385 falhas (por pessoa) no final de 3 dias. A estimativa de sobrevivência para além de 3 dias com base nesta estimativa de Nelson-Aalen do risco cumulativo seria então S (3) exp (-0,0385) 0,9623. Isto corresponde de perto com a estimativa de limite de produto Kaplan Meier de sobrevivência para além de 3 dias de 0,9620. Pode-se solicitar que o SAS estime a função de sobrevivência exponenciando o negativo do estimador de Nelson-Aalen, também conhecido como o estimador de Breslow, e não pelo estimador de Kaplan-Meier através da opção methodbreslow na instrução proc lifetest. Em amostras muito grandes, o estimador de Kaplan-Meier eo estimador transformado de Nelson-Aalen (Breslow) irão convergir. 3.3. Os pesquisadores estão freqüentemente interessados ​​em estimativas de tempo de sobrevivência em que 50 ou 25 da população morreram ou falharam. Devido à inclinação positiva muitas vezes visto com acompanhamento vezes, medianas são muitas vezes um melhor indicador de um tempo médio de sobrevivência. Obtemos estimativas destes quartis, bem como estimativas do tempo médio de sobrevivência por defeito de proc lifetest. Vemos que para além de 1.671 dias, 50 da população é esperado para ter falhado. Observe que o intervalo durante o qual os 25 primeiros da população deve fracassar, 0,297) é muito mais curto do que o intervalo durante o qual o segundo 25 da população é esperado para falhar, 297, 1671). Isso reforça nossa suspeita de que o risco de falha é maior durante o início do tempo de seguimento. 95 Intervalo de Confiança 3.4. Comparando funções de sobrevivência usando testes não-paramétricos Suponha que você suspeita que a função de sobrevivência não é a mesma entre alguns dos grupos em seu estudo (alguns grupos tendem a falhar mais rapidamente do que outros). Também é possível usar métodos não-paramétricos para testar a igualdade da função de sobrevivência entre os grupos da seguinte maneira: Quando fornecido com uma variável de agrupamento em uma instrução strata em proc lifetest. O SAS produzirá gráficos da função de sobrevivência (a menos que outros gráficos sejam solicitados) estratificados pela variável de agrupamento, bem como testes de igualdade da função de sobrevivência entre os estratos. Por exemplo, podemos inserir a classe (categórica) variável de gênero na instrução de estratos para solicitar que a SAS compare as experiências de sobrevivência de machos e fêmeas. Teste de Igualdade sobre Estratos No gráfico do estimador de Kaplan-Meier estratificado por gênero abaixo, parece que as fêmeas geralmente têm uma pior experiência de sobrevida. Isto é reforçado pelos três testes significativos de igualdade. 3.4.1. Testes de igualdade da função de sobrevivência Na saída encontramos três testes baseados no qui-quadrado da igualdade da função de sobrevivência sobre os estratos, o que apóia nossa suspeita de que a sobrevivência difere entre os sexos. O cálculo da estatística para os testes não-paramétricos Log-Rank e Wilcoxon é dado por. Onde d é o número observado de falhas no estrato i no tempo tj, sendo e o número esperado de falhas no estrato i no tempo tj, sendo v o estimador da variância de d, e wi o peso da diferença em Tempo tj (ver Hosmer e Lemeshow (2008) para fórmulas para hat e e hat v). Em suma, essas estatísticas somam as diferenças ponderadas entre o número de falhas observadas eo número esperado de falhas para cada estrato em cada ponto de tempo, assumindo a mesma função de sobrevivência de cada estrato. Em outras palavras, se todos os estratos tiverem a mesma função de sobrevivência, então esperamos que a mesma proporção morra em cada intervalo. Se essas proporções diferirem sistematicamente entre os estratos ao longo do tempo, então a estatística Q será grande ea hipótese nula de nenhuma diferença entre os estratos é mais provável de ser rejeitada. Os testes log-rank e Wilcoxon na tabela de saída diferem nos pesos wj utilizados. O teste log-rank ou Mantel-Haenzel usa wj 1, de modo que as diferenças em todos os intervalos de tempo são ponderadas igualmente. O teste de Wilcoxon utiliza wj nj, de modo que as diferenças são ponderadas pelo número em risco no tempo tj, dando assim mais peso às diferenças que ocorrem mais cedo no tempo de seguimento. Outros testes não paramétricos usando outros esquemas de ponderação estão disponíveis através da opção de teste na instrução de estratos. O teste de razão de verossimilhança -2Log (LR) é um teste paramétrico assumindo tempos de sobrevivência distribuídos exponencialmente e não será mais discutido nesta seção não paramétrica. 3.5. Estimativa não paramétrica da função de perigo As técnicas não paramétricas padrão normalmente não estimam directamente a função de perigo. No entanto, ainda podemos ter uma idéia da taxa de risco usando um gráfico da estimativa kernel-suavizada. Como a função de perigo h (t) é a derivada da função de perigo acumulada H (t), podemos estimar grosseiramente a taxa de mudança em H (t) tomando as diferenças sucessivas no som H (t) entre os pontos temporais adjacentes, Delta Chapéu H (t) chapéu H (tj) - chapéu H (t). O SAS calcula diferenças na estimativa de Nelson-Aalen de H (t). Geralmente, esperamos que a taxa de risco mude suavemente (se ela muda) ao longo do tempo, ao invés de saltar ao acaso. Para realizar este alisamento, a estimativa da função de perigo em qualquer intervalo de tempo é uma média ponderada de diferenças dentro de uma janela de tempo que inclui muitas diferenças, conhecidas como largura de banda. Alargar a largura de banda suaviza a função fazendo a média de mais diferenças em conjunto. No entanto, o alargamento também irá mascarar as alterações na função de perigo, uma vez que as alterações locais na função de perigo são abafadas pelo maior número de valores que estão a ser calculados em média. Abaixo está um exemplo de obtenção de uma estimativa suavizada do kernel da função de perigo em todos os estratos BMI com uma largura de banda de 200 dias: Solicitamos parcelas da função de perigo com uma largura de banda de 200 dias com plothazard (bw200) SAS convenientemente permite a criação de estratos Especificamos os pontos finais esquerdos de cada bmi para formar 5 categorias bmi: 15-18.5, 18.5-25, 25-30, 30-40 e 40. A As linhas no gráfico são marcadas pelo ponto médio bmi em cada grupo. A partir da trama, podemos ver que a função de perigo, de fato, aparece mais alto no início do tempo de seguimento e, em seguida, diminui até que os níveis de cerca de 500 dias e permanece baixa e na maior parte constante. A função de perigo também é geralmente mais elevada para as duas categorias mais baixas de IMC. Os súbitos upticks no final do tempo de acompanhamento não são de confiança, como eles são provavelmente devido ao número poucos de sujeitos em risco no final. A curva vermelha que representa a categoria IMC mais baixa é truncada à direita porque a última pessoa nesse grupo morreu muito antes do final do tempo de acompanhamento. 4. Antecedentes: O modelo de regressão de riscos proporcionais de Cox 4.1. Considerando que, com métodos não-paramétricos, normalmente estamos estudando a função de sobrevivência, com métodos de regressão examinamos a função de risco, h (t). A função de perigo para um determinado intervalo de tempo dá a probabilidade de que o sujeito falhará nesse intervalo, dado que o sujeito não falhou até esse ponto no tempo. A taxa de risco também pode ser interpretada como a taxa na qual as falhas ocorrem nesse ponto no tempo, ou a taxa na qual o risco é acumulado, uma interpretação que coincide com o fato de que a taxa de risco é a derivada da função de risco cumulativa, H (T). Em modelos de regressão para análise de sobrevivência, tentamos estimar parâmetros que descrevem a relação entre nossos preditores ea taxa de risco. Gostaríamos de permitir que os parâmetros, os betas, assumam qualquer valor, preservando a natureza não negativa da taxa de risco. Uma maneira comum de abordar ambas as questões é parametrizar a função de perigo como: Nesta parametrização, h (tx) é obrigado a ser estritamente positivo, como a função exponencial sempre avalia como positivo, enquanto beta0 e beta1 são autorizados a assumir qualquer valor . Observe, no entanto, que t não aparece na fórmula para a função de perigo, implicando assim que nesta parametrização, não modelamos as taxas de perigo dependência do tempo. Uma descrição completa da relação de taxas de risco com o tempo exigiria que a forma funcional dessa relação fosse parametrizada de alguma forma (por exemplo, se poderia supor que a taxa de risco tem uma relação exponencial com o tempo). No entanto, em muitos contextos, estamos muito menos interessados ​​em modelar as taxas de risco relação com o tempo e estão mais interessados ​​em sua dependência de outras variáveis, como o tratamento experimental ou idade. Para tais estudos, é apropriado um modelo semi-paramétrico, no qual estimamos os parâmetros de regressão como efeitos covariáveis, mas ignoramos (não especificamos) a dependência do tempo. 4.2. O modelo de riscos proporcionais de Cox Podemos remover a dependência da taxa de risco no tempo expressando a taxa de risco como um produto de h0 (t), uma taxa de risco de linha de base que descreve a taxa de risco dependendo apenas do tempo e r (x , Betax), que descreve a dependência das taxas de risco das outras covariáveis ​​x: Nesta parametrização, h (t) será igual a h0 (t) quando r (x, betax) 1. É intuitivamente atraente deixar r (x, ) 1 quando todos x 0, fazendo assim a taxa de risco de linha de base, h0 (t), equivalente a uma intercepção de regressão. Acima, discutimos que expressar a taxa de risco dependência de suas covariáveis ​​como uma função exponencial convenientemente permite que os coeficientes de regressão para assumir qualquer valor, enquanto ainda limitando a taxa de risco para ser positivo. A função exponencial também é igual a 1 quando seu argumento é igual a 0. Portanto, deixaremos r (x, betax) exp (xbetax) ea função de perigo será dada por: Esta parametrização forma o modelo de riscos proporcionais de Cox. É chamado de modelo de riscos proporcionais porque a razão de taxas de risco entre dois grupos com covariáveis ​​fixas permanecerá constante ao longo do tempo neste modelo. Por exemplo, a taxa de risco quando o tempo t quando x x1 seria então h (tx1) h0 (t) exp (x1betax) e no tempo t quando x x2 seria h (tx2) h0 (t) exp (x2betax). O efeito covariável de x, então, é a razão entre essas duas taxas de risco, ou uma razão de risco (HR): Observe que a taxa de risco de linha de base h0 (t) é cancelada e que a taxa de risco não depende do tempo t : A taxa de risco HR permanecerá assim constante ao longo do tempo com covariados fixos. Devido a esta parametrização, os efeitos covariáveis ​​são multiplicativos em vez de aditivos e são expressos como razões de perigo, em vez de diferenças de perigo. Como vimos acima, uma das grandes vantagens do modelo de Cox é que a estimativa dos efeitos preditores não depende de fazer suposições sobre a forma da função de risco de linha de base, h0 (t), que pode ser deixada sem especificar. Em vez disso, apenas precisamos assumir que qualquer que seja a função de perigo de linha de base, os efeitos covariáveis ​​mudam multiplicativamente a função de perigo e essas mudanças multiplicativas são constantes ao longo do tempo. Os modelos de Cox são tipicamente ajustados por métodos de máxima verossimilhança, que estimam os parâmetros de regressão que maximizam a probabilidade de observar o conjunto de tempos de sobrevivência. Assim, qual é a probabilidade de observar o sujeito i falhar no tempo tj No início de um dado intervalo de tempo tj, digamos que há Rj sujeitos ainda em risco, cada um com suas próprias taxas de risco: A probabilidade de observar o sujeito j falha de todos Portanto, Rj permanecendo sujeitos em risco é a proporção da soma total das taxas de risco de todos os sujeitos Rj que é composta pela taxa de risco js do sujeito. Por exemplo, se houvesse três sujeitos ainda em risco no tempo tj, a probabilidade de observação do sujeito 2 falharia no tempo tj seria: Todas essas taxas de perigo são baseadas na mesma taxa de risco basal h0 (ti), então podemos simplificar A expressão acima para: Podemos calcular de forma semelhante a probabilidade conjunta de observar cada um dos n indivíduos tempos de falha, ou a probabilidade dos tempos de falha, em função dos parâmetros de regressão, beta, dados os covariantes valores xj: onde Rj é O conjunto de sujeitos ainda em risco no tempo tj. Métodos de máxima verossimilhança tentam encontrar os valores beta que maximizam essa probabilidade, isto é, os parâmetros de regressão que produzem a máxima probabilidade conjunta de observar o conjunto de tempos de falha com o conjunto associado de valores de covariáveis. Because this likelihood ignores any assumptions made about the baseline hazard function, it is actually a partial likelihood, not a full likelihood, but the resulting beta have the same distributional properties as those derived from the full likelihood. 5. Cox proportional hazards regression in SAS using proc phreg 5.1. Fitting a simple Cox regression model We request Cox regression through proc phreg in SAS. Previously, we graphed the survival functions of males in females in the WHAS500 dataset and suspected that the survival experience after heart attack may be different between the two genders. Perhaps you also suspect that the hazard rate changes with age as well. Below we demonstrate a simple model in proc phreg. where we determine the effects of a categorical predictor, gender, and a continuous predictor, age on the hazard rate: To specify that gender is a categorical predictor, we enter it on the class statement. We also would like survival curves based on our model, so we add plotssurvival to the proc phreg statement, although as we shall see this specification is probably insufficient for what we want. On the model statement, on the left side of the equation, we provide the follow up time variable, lenfol, and the censoring variable, fstat, with all censoring values listed in parentheses. On the right side of the equation we list all the predictors. Model Fit Statistics The above output is only a portion of what SAS produces each time you run proc phreg. In particular we would like to highlight the following tables: Model Fit Statistics. Displays fit statistics which are typically used for model comparison and selection. This is our first model, so we have no other model to compare with, except that by default SAS will display model fit statistics of a model with no predictors. We see here that adding gender and particularly age (as we will see below) as predictors improves the fit of the model, as all three statistics decrease Testing Global Null Hypothesis: BETA0. Displays test of hypothesis that all coefficients in the model are 0, that is, an overall test of whether the model as a whole can predict changes in the hazard rate. These tests are asymptotically equivalent, but may differ in smaller samples, in which case the likelihood ratio test is generally preferred. Here the tests agree, and it appears that at least one of our regression coefficients is significantly different from 0. Analysis of Maximum Likelihood Estimates. Displays model coefficients, tests of significance, and exponentiated coefficient as hazard ratio. Here it appears that although females have a 6 (Hazard Ratio 0.937) decrease in the hazard rate compared to males, this decrease is not significant. On the other hand, with each year of age the hazard rate increases by 7 (Hazard Ratio 1.069), a significant change. Our initial supsicion that the hazard rates were different between genders seems to be wrong once we account for age effects (females are generally older in this dataset), but as shall see the effects are more nuanced. Also notice that there is no intercept. In Cox regression, the intercept is absorbed into the baseline hazard function, which is left unspecified. 5.2. Producing graphs of the survival and baseline hazard function after Cox regression Handily, proc phreg has pretty extensive graphing capabilities. plotssurvival to the proc phreg statement./p When only plotssurvival is specified on the proc phreg statement, SAS will produce one graph, a reference curve of the survival function at the reference level of all categorical predictors and at the mean of all continuous predictors. Reference Set of Covariates for Plotting In this model, this reference curve is for males at age 69.845947 Usually, we are interested in comparing survival functions between groups, so we will need to provide SAS with some additional instructions to get these graphs. 5.2.1. Use the baseline statement to generate survival plots by group Acquiring more than one curve, whether survival or hazard, after Cox regression in SAS requires use of the baseline statement in conjunction with the creation of a small dataset of covariate values at which to estimate our curves of interest. Here are the typical set of steps to obtain survival plots by group: First, a dataset of covariate values is created in a data step. Each row contains a set of covariate values for which we would like a survival plot. This dataset name is then specified on the covariates option on the baseline statement. Internally, SAS will expand the dataset to contain one observation at each event time per set of covariate values in the covariates dataset. This expanded dataset can be named and then viewed with the out option, but obtaining the out dataset is not at all necessary to generate the survival plots. Two options on the baseline statement control grouping in the graphs. If a variable is specified after group (not used until later in the seminar), SAS will create separate graphs for each level of that variable. If a variable is specified after the rowid option, SAS will create separate lines within the same plot for each level of this variable. The group and rowid options on the baseline statment work in tandem with the (overlaygroup) option specified immediately after the plots option on the proc phreg statement. If plots(overlaygroup) is specified, and there is a variable specified on the group option on the baseline statement, SAS will create separate graphs by level of that variable. If additionally a variable is specified on the rowid option on the baseline statement, SAS will plot separate lines by this variable in each plot. If no group option is used, we can still get separate lines by the rowid variable on one plot by specifying no type of overlaying like so: plots(overlay). Omitting the (overlay) completely will tell SAS to create separate graphs by rowid . Both survival and cumulative hazard curves are available using the plots option on the proc phreg statement, with the keywords survival and cumhaz. respectivamente. Lets get survival curves (cumulative hazard curves are also available) for males and female at the mean age of 69.845947 in the manner we just described. We use a data step to create a dataset called covs with 2 rows of covariates We then specify covs on covariates option on the baseline statement. There are 326 discrete event times in the WHAS500 dataset, so the baseline statement will then expand the covariates dataset so that we have 326 entries each for males and females at the mean age. We specify the name of the output dataset, base, that contains our covariate values at each event time on the out option We request survival plots that are overlaid with the plot(overlay)(survival) specification on the proc phreg statement. If we did not specify (overlay). SAS would produce separate graphs for males and females. We also add the rowid option on the baseline statement, which tells SAS to label the curves on our graph using the variable gender . The survival curves for females is slightly higher than the curve for males, suggesting that the survival experience is possibly slightly better (if significant) for females, after controlling for age. The estimated hazard ratio of .937 comparing females to males is not significant. 5.3. Expanding and interpreting the Cox regression model with interaction terms In our previous model we examined the effects of gender and age on the hazard rate of dying after being hospitalized for heart attack. At this stage we might be interested in expanding the model with more predictor effects. For example, we found that the gender effect seems to disappear after accounting for age, but we may suspect that the effect of age is different for each gender. We could test for different age effects with an interaction term between gender and age. Based on past research, we also hypothesize that BMI is predictive of the hazard rate, and that its effect may be non-linear. Finally, we strongly suspect that heart rate is predictive of survival, so we include this effect in the model as well. In the code below we fit a Cox regression model where we allow examine the effects of gender, age, bmi, and heart rate on the hazard rate. Here, we would like to introdue two types of interaction: The interaction of 2 different variables, such as gender and age, is specified through the syntax genderage. which requests inidividual effects of each term as well as their interaction. This allows the effect of age to differ by gender (and the effect of gender to differ by age). The interaction of a continuous variable, such as bmi, with itself is specified by bmibmi. to model both linear and quadratic effects of that variable. A quadratic effect implies that the effect of the variable changes with the level of the variable itself (i. e. an interaction of the variable with itself). Model Fit Statistics We would probably prefer this model to the simpler model with just gender and age as explanatory factors for a couple of reasons. First, each of the effects, including both interactions, are significant. Second, all three fit statistics, -2 LOG L . AIC and SBC . are each 20-30 points lower in the larger model, suggesting the including the extra parameters improve the fit of the model substantially. Lets interpret our model. We should begin by analyzing our interactions. The significant AGEGENDER interaction term suggests that the effect of age is different by gender. Recall that when we introduce interactions into our model, each individual term comprising that interaction (such as GENDER and AGE ) is no longer a main effect, but is instead the simple effect of that variable with the interacting variable held at 0. Thus, for example the AGE term describes the effect of age when gender0, or the age effect for males. It appears that for males the log hazard rate increases with each year of age by 0.07086, and this AGE effect is significant, p hazardratio statement and graphs to interpret effects, particularly interactions Notice in the Analysis of Maximum Likelihood Estimates table above that the Hazard Ratio entries for terms involved in interactions are left empty. SAS omits them to remind you that the hazard ratios corresponding to these effects depend on other variables in the model. Below, we show how to use the hazardratio statement to request that SAS estimate 3 hazard ratios at specific levels of our covariates. After the keyword hazardratio. we can optionally apply a label, then we specify the variable whose levels are to be compared in the hazard, and finally after the option keyword at we tell SAS at which level of our other covariates to evaluate this hazard ratio. If the variable whose hazard rates are to computed is not involved in an interaction, specification of additional covariates is unncessary since the hazard ratio is constant across levels of all other covariates (a main effect). We calculate the hazard ratio describing a one-unit increase in age, or frac , for both genders. Notice the ALL following gender. which is used only with class variables to request the hazard ratio at all levels of the class variable. We also calculate the hazard ratio between females and males, or frac at ages 0, 20, 40, 60, and 80. Finally, we calculate the hazard ratio describing a 5-unit increase in bmi, or frac , at clinically revelant BMI scores. Notice the additional option units5. BMI classes are typically separated by about 5 points, so we would like to see how the hazard ratio between (approximately) adjacent BMI classes changes as bmi increases. Effect of 1-unit change in age by gender: Hazard Ratios for AGE In each of the tables, we have the hazard ratio listed under Point Estimate and confidence intervals for the hazard ratio. Confidence intervals that do not include the value 1 imply that hazard ratio is significantly different from 1 (and that the log hazard rate change is significanlty different from 0). Thus, in the first table, we see that the hazard ratio for age, frac , is lower for females than for males, but both are significantly different from 1. Thus, both genders accumulate the risk for death with age, but females accumulate risk more slowly. In the second table, we see that the hazard ratio between genders, frac , decreases with age, significantly different from 1 at age 0 and age 20, but becoming non-signicant by 40. We previously saw that the gender effect was modest, and it appears that for ages 40 and up, which are the ages of patients in our dataset, the hazard rates do not differ by gender. Finally, we see that the hazard ratio describing a 5-unit increase in bmi. frac , increases with bmi. The effect of bmi is significantly lower than 1 at low bmi scores, indicating that higher bmi patients survive better when patients are very underweight, but that this advantage disappears and almost seems to reverse at higher bmi levels. Graphs are particularly useful for interpreting interactions. We can plot separate graphs for each combination of values of the covariates comprising the interactions. Below we plot survivor curves across several ages for each gender through the follwing steps: We again first create a covariates dataset, here called covs2. to tell SAS at which covariate values we would like to estimate the survivor function. Here we want curves for both males and females at ages 40, 60, and 80. All predictors in the model must be in the covariates dataset, so we set bmi and hr to their means. We then specify the name of this dataset in the covariates option on the baseline statement. We request separate lines for each age using rowid and separate graphs by gender using group on the baseline statement. We request that SAS create separate survival curves by the group option, with separate curves by rowid overlaid on the same graph with the syntax plots(overlaygroup)(survival). As we surmised earlier, the effect of age appears to be more severe in males than in females, reflected by the greater separation between curves in the top graaph. 5.5. Create time-varying covariates with programming statements Thus far in this seminar we have only dealt with covariates with values fixed across follow up time. With such data, each subject can be represented by one row of data, as each covariate only requires only value. However, often we are interested in modeling the effects of a covariate whose values may change during the course of follow up time. For example, patients in the WHAS500 dataset are in the hospital at the beginnig of follow-up time, which is defined by hospital admission after heart attack. Many, but not all, patients leave the hospital before dying, and the length of stay in the hospital is recorded in the variable los. We, as researchers, might be interested in exploring the effects of being hospitalized on the hazard rate. As we know, each subject in the WHAS500 dataset is represented by one row of data, so the dataset is not ready for modeling time-varying covariates. Our goal is to transform the data from its original state: Notice the creation of start and stop variables, which denote the beginning and end intervals defined by hospitalization and death (or censoring). Notice also that care must be used in altering the censoring variable to accommodate the multiple rows per subject. If the data come prepared with one row of data per subject each time a covariate changes value, then the researcher does not need to expand the data any further. However, if that is not the case, then it may be possible to use programming statement within proc phreg to create variables that reflect the changing the status of a covariate. Alternatively, the data can be expanded in a data step, but this can be tedious and prone to errors (although instructive, on the other hand). Fortunately, it is very simple to create a time-varying covariate using programming statements in proc phreg. These statement essentially look like data step statements, and function in the same way. In the code below, we model the effects of hospitalization on the hazard rate. To do so: We create the variable inhosp. which is 1 if the patient is currently in the hospital ( lenfol los ), and 0 when the patient leaves ( lenfol los ). We also add the newly created time-varying covariate to the model statement. Analysis of Maximum Likelihood Estimates GENDER Female AGE It appears that being in the hospital increases the hazard rate, but this is probably due to the fact that all patients were in the hospital immediately after heart attack, when they presumbly are most vulnerable. 6. Exploring functional form of covariates In the Cox proportional hazards model, additive changes in the covariates are assumed to have constant multiplicative effects on the hazard rate (expressed as the hazard ratio (HR)): In other words, each unit change in the covariate, no matter at what level of the covariate, is associated with the same percent change in the hazard rate, or a constant hazard ratio. For example, if betax is 0.5, each unit increase in x will cause a 65 increase in the hazard rate, whether X is increasing from 0 to 1 or from 99 to 100, as HR exp(0.5(1)) 1.6487. However, it is quite possible that the hazard rate and the covariates do not have such a loglinear relationship. Constant multiplicative changes in the hazard rate may instead be associated with constant multiplicative, rather than additive, changes in the covariate, and might follow this relationship: HR exp(betax(log(x2)-log(x1)) exp(betax(logfrac )) This relationship would imply that moving from 1 to 2 on the covariate would cause the same percent change in the hazard rate as moving from 50 to 100. It is not always possible to know a priori the correct functional form that describes the relationship between a covariate and the hazard rate. Plots of the covariate versus martingale residuals can help us get an idea of what the functional from might be. 6.1 Plotting cumulative martingale residuals against covariates to determine the functional form of covariates The background necessary to explain the mathematical definition of a martingale residual is beyond the scope of this seminar, but interested readers may consult (Therneau, 1990). For this seminar, it is enough to know that the martingale residual can be interpreted as a measure of excess observed events . or the difference between the observed number of events and the expected number of events under the model: Therneau and colleagues(1990) show that the smooth of a scatter plot of the martingale residuals from a null model (no covariates at all) versus each covariate individually will often approximate the correct functional form of a covariate. Previously we suspected that the effect of bmi on the log hazard rate may not be purely linear, so it would be wise to investigate further. In the code below we demonstrate the steps to take to explore the functional form of a covariate: Run a null Cox regression model by leaving the right side of equation empty on the model statement within proc phreg . Save the martingale residuals to an output dataset using the resmart option in the output statement within proc phreg. In the code below we save the residuals to a variable named martingale. Use proc loess to plot scatter plot smooths of the covariate (here bmi) vs the martingale residuals. The loess method selects portions of the data into local neighborhoods and fits a regression surface to each neighboorhood. This allows the regression surface to take a wide variety of shapes. The smoothed regression surfaces should approximate the functional form of the covariate. Within proc loess we specify the martingale residual dataset on the proc loess statement. We specify which variables to model on the model statement. The fraction of the data contained in each neighborhood is determined by the smoothing parameter, and thus larger smoothing parameter values produce smoother surfaces. Below we request 4 smooths using the smooth option. A desirable feature of loess smooth is that the residuals from the regression do not have any structure. We can examine residual plots for each smooth (with loess smooth themselves) by specifying the plotsResidualsBySmooth option on the proc loess statement. In the left panel above, Fits with Specified Smooths for martingale, we see our 4 scatter plot smooths. In all of the plots, the martingale residuals tend to be larger and more positive at low bmi values, and smaller and more negative at high bmi values. This indicates that omitting bmi from the model causes those with low bmi values to modeled with too low a hazard rate (as the number of observed events is in excess of the expected number of events). On the right panel, Residuals at Specified Smooths for martingale, are the smoothed residual plots, all of which appear to have no structure. The surface where the smoothing parameter0.2 appears to be overfit and jagged, and such a shape would be difficult to model. However, each of the other 3 at the higher smoothing parameter values have very similar shapes, which appears to be a linear effect of bmi that flattens as bmi increases. This indicates that our choice of modeling a linear and quadratic effect of bmi was a reasonable one. One caveat is that this method for determining functional form is less reliable when covariates are correlated. However, despite our knowledge that bmi is correlated with age, this method provides good insight into bmis functional form. 6.2. Using the assess statement to explore functional forms SAS provides built-in methods for evaluating the functional form of covariates through its assess statement. These techniques were developed by Lin, Wei and Zing (1993). The basic idea is that martingale residuals can be grouped cumulatively either by follow up time and/or by covariate value. If our Cox model is correctly specified, these cumulative martingale sums should randomly fluctuate around 0. Significant departures from random error would suggest model misspecification. We could thus evaluate model specification by comparing the observed distribution of cumulative sums of martingale residuals to the expected distribution of the residuals under the null hypothesis that the model is correctly specified. The null distribution of the cumulative martingale residuals can be simulated through zero-mean Gaussian processes. If the observed pattern differs significantly from the simulated patterns, we reject the null hypothesis that the model is correctly specified, and conclude that the model should be modified. In such cases, the correct form may be inferred from the plot of the observed pattern. This technique can detect many departures from the true model, such as incorrect functional forms of covariates (discussed in this section), violations of the proportional hazards assumption (discussed later), and using the wrong link function (not discussed). Below we demonstrate use of the assess statement to the functional form of the covariates. Several covariates can be evaluated simultaneously. We compare 2 models, one with just a linear effect of bmi and one with both a linear and quadratic effect of bmi (in addition to our other covariates). Using the assess statement to check functional form is very simple: List all covariates whose functional forms are to be checked within parentheses after var on the assess statement. Only continuous covariates may be assessed this way, not class variables. We also specify the resample option, which performs a supremum test of the null hypothesis that the observed pattern of martingale residuals is not different from the expected pattern (i. e. that the model is correctly specified). Essentially, the supremum tests calculates the proportion of 1000 simulations that contain a maximum cumulative martingale residual larger than the observed maximum cumulative residual. This proportion is reported as the p-value. If only a small proportion, say 0.05, of the simulations have a maximum cumulative residual larger than the observed maximum, then that suggests that the observed residuals are larger than expected under the proposed model and that the model should be modified. First lets look at the model with just a linear effect for bmi. In each of the graphs above, a covariate is plotted against cumulative martingale residuals. The solid lines represent the observed cumulative residuals, while dotted lines represent 20 simulated sets of residuals expected under the null hypothesis that the model is correctly specified. Unless the seed option is specified, these sets will be different each time proc phreg is run. A solid line that falls significantly outside the boundaries set up collectively by the dotted lines suggest that our model residuals do not conform to the expected residuals under our model. None of the graphs look particularly alarming (click here to see an alarming graph in the SAS example on assess ). Additionally, none of the supremum tests are significant, suggesting that our residuals are not larger than expected. Nevertheless, the bmi graph at the top right above does not look particularly random, as again we have large positive residuals at low bmi values and smaller negative residuals at higher bmi values. This suggests that perhaps the functional form of bmi should be modified. Now lets look at the model with just both linear and quadratic effects for bmi. Supremum Test for Functional Form Pr gt MaxAbsVal The graph for bmi at top right looks better behaved now with smaller residuals at the lower end of bmi. The other covariates, including the additional graph for the quadratic effect for bmi all look reasonable. Thus, we again feel justified in our choice of modeling a quadratic effect of bmi. 7. Assessing the proportional hazards assumption A central assumption of Cox regression is that covariate effects on the hazard rate, namely hazard ratios, are constant over time. For example, if males have twice the hazard rate of females 1 day after followup, the Cox model assumes that males have twice the hazard rate at 1000 days after follow up as well. Violations of the proportional hazard assumption may cause bias in the estimated coefficients as well as incorrect inference regarding significance of effects. 7.1. Graphing Kaplan-Meier survival function estimates to assess proportional hazards for categorical covariates In the case of categorical covariates, graphs of the Kaplan-Meier estimates of the survival function provide quick and easy checks of proportional hazards. If proportional hazards holds, the graphs of the survival function should look parallel, in the sense that they should have basically the same shape, should not cross, and should start close and then diverge slowly through follow up time. Earlier in the seminar we graphed the Kaplan-Meier survivor function estimates for males and females, and gender appears to adhere to the proportional hazards assumption. 7.2. Plotting scaled Schoenfeld residuals vs functions of time to assess proportional hazards of a continuous covariate A popular method for evaluating the proportional hazards assumption is to examine the Schoenfeld residuals. The Schoenfeld residual for observation j and covariate p is defined as the difference between covariate p for observation j and the weighted average of the covariate values for all subjects still at risk when observation j experiences the event. Grambsch and Therneau (1994) show that a scaled version of the Schoenfeld residual at time k for a particular covariate p will approximate the change in the regression coefficient at time k: E(sstar ) hat p approx betaj(tk) In the relation above, sstar is the scaled Schoenfeld residual for covariate p at time k, betap is the time-invariant coefficient, and betaj(tk) is the time-variant coefficient. In other words, the average of the Schoenfeld residuals for coefficient p at time k estimates the change in the coefficient at time k. Thus, if the average is 0 across time, then that suggests the coefficient p does not vary over time and that the proportional hazards assumption holds for covariate p. It is possible that the relationship with time is not linear, so we should check other functional forms of time, such as log(time) and rank(time). We will use scatterplot smooths to explore the scaled Schoenfeld residuals relationship with time, as we did to check functional forms before. Here are the steps we will take to evaluate the proportional hazards assumption for age through scaled Schoenfeld residuals: Scaled Schoenfeld residuals are obtained in the output dataset, so we will need to supply the name of an output dataset using the out option on the output statement as before. Below, we call this dataset schoen. SAS provides Schoenfeld residuals for each covariate, and they are output in the same order as the coefficients are listed in the Analysis of Maximum Likelihood Estimates table. Only as many residuals are output as names are supplied on the ressch option. For this demonstration, we are particularly interested in the Schoenfeld residuals for age. We should check for non-linear relationships with time, so we include a data step that calculates the log of lenfol. Other functions can be explored as well. We then use proc loess to obtain our smooths. Flat lines at 0 suggest that the coefficient does not vary over time and that proportional hazards holds. Although possibly slightly positively trending, the smooths appear mostly flat at 0, suggesting that the coefficient for age does not change over time and that proportional hazards holds for this covariate. The same procedure could be repeated to check all covariates. 7.3. Using assess with the ph option to check proportional hazards The procedure Lin, Wei, and Zing(1990) developed that we previously introduced to explore covariate functional forms can also detect violations of proportional hazards by using a transform of the martingale residuals known as the empirical score process. Once again, the empirical score process under the null hypothesis of no model misspecification can be approximated by zero mean Gaussian processes, and the observed score process can be compared to the simulated processes to asses departure from proportional hazards. The assess statement with the ph option provides an easy method to assess the proportional hazards assumption both graphically and numerically for many covariates at once. Here we demonstrate how to assess the proportional hazards assumption for all of our covariates (graph for gender not shown): As before with checking functional forms, we list all the variables for which we would like to assess the proportional hazards assumption after the var option on the assess statement. We additionally add the option ph to tell SAS that we would like to assess proportional hazards in addition to checking functional forms. As before, we specify the resample option to request the supremum tests of the null hypothesis that proportional hazards holds. These tests calculate the proportion of simulated score processes that yielded a maximum score larger than the maximum observed score process. A very small proportion (p-value) suggests violation of proportional hazards. Supremum Test for Proportionals Hazards Assumption As we did with functional form checking, we inspect each graph for observed score processes, the solid blue lines, that appear quite different from the 20 simulated score processes, the dotted lines. None of the solid blue lines looks particularly aberrant, and all of the supremum tests are non-significant, so we conclude that proportional hazards holds for all of our covariates. 7.4. Dealing with nonproportionality If nonproportional hazards are detected, the researcher has many options with how to address the violation (Therneau Grambsch, 2000): Ignore the nonproportionality if it appears the changes in the coefficient over time are very small or if it appears the outliers are driving the changes in the coefficient. In large datasets, very small departures from proportional hazards can be detected. If, say, a regression coefficient changes only by 1 over time, it is unlikely that any overarching conclusions of the study would be affected. Additionally, a few heavily influential points may be causing nonproportional hazards to be detected, so it is important to use graphical methods to ensure this is not the case. Stratify the model by the nonproportional covariate. Stratification allows each stratum to have its own baseline hazard, which solves the problem of nonproportionality. However, one cannot test whether the stratifying variable itself affects the hazard rate significantly. Additionally, although stratifying by a categorical covariate works naturally, it is often difficult to know how to best discretize a continuous covariate. This can be easily accomplished in proc phreh with the strata statement. Run Cox models on intervals of follow up time rather than on its entirety. Proportional hazards may hold for shorter intervals of time within the entirety of follow up time. Some data management will be required to ensure that everyone is properly censored in each interval. Include covariate interactions with time as predictors in the Cox model. This can be accomplished through programming statements in proc phreg. as these interactions are time-varying covariates themselves. Indeed, including such an interaction has been used as a test of proportional hazards -- a significant interaction indicates violation of the assumption. Below, we provide code that shows how to include a covariate interaction with time in the model. We create the interaction variable hrtime by multiplying hr by lenfol. The interaction variable is of course included on the model statement as well. The output indicates that this interaction is non-significant, which is not surprising given that hr has not shown evidence of nonproportionality. Analysis of Maximum Likelihood Estimates 8. Influence Diagnostics 8.1. Inspecting dfbetas to assess influence of observations on individual regression coefficients After fitting a model it is good practice to assess the influence of observations in your data, to check if any outlier has a disproportionately large impact on the model. Once outliers are identified, we then decide whether to keep the observation or throw it out, because perhaps the data may have been entered in error or the observation is not particularly representative of the population of interest. The dfbeta measure quantifies how much an observation influences the regression coefficients in the model. For observation j, dfbetaj approximates the change in a coefficient when that observation is deleted. We thus calculate the coefficient with the observation, call it beta, and then the coefficient when observation j is deleted, call it betaj, and take the difference to obtain dfbetaj. Positive values of dfbetaj indicate that the exclusion of the observation causes the coefficient to decrease, which implies that inclusion of the observation causes the coefficient to increase. Thus, it might be easier to think of dfbetaj as the effect of including observation j on the the coefficient. SAS provides easy ways to examine the dfbeta values for all observations across all coefficients in the model. Plots of covariates vs dfbetas can help to identify influential outliers. Here are the steps we use to assess the influence of each observation on our regression coefficients: We obtain dfbeta values through in output datasets in SAS, so we will need to specify an output statement within proc phreg. On the output statement, we supply the name of the output dataset dfbeta on the out option. There are dfbeta values associated with each coefficient in the model, and they are output to the output dataset in the order that they appear in the parameter table Analysis of Maximum Likelihood Estimates (see above). The order of dfbetas in the current model are: gender, age, genderage, bmi, bmibmi, hr. SAS expects individual names for each dfbeta associated with a coefficient. If only k names are supplied and k is less than the number of distinct dfbetas, SAS will only output the first k dfbetas. Thus, to pull out all 6 dfbetas, we must supply 6 variable names for these dfbetas. We then plot each dfbeta against the associated coviarate using proc sgplot. Our aim is identifying which observations are influential, so we replace the marker symbol with the id number of the observation by specifying the variable id on the markerchar option. The dfbetas for age and hr look small compared to regression coefficients themselves (hat 0.07086 and hat 0.01277) for the most part, but id89 has a rather large, negative dfbeta for hr. We also identify id89 again and id112 as influential on the linear bmi coefficient (hat -0.23323), and their large positive dfbetas suggest they are pulling up the coefficient for bmi when they are included. Once you have identified the outliers, it is good practice to check that their data were not incorrectly entered. These two observations, id89 and id112, have very low but not unreasonable bmi scores, 15.9 and 14.8. However they lived much longer than expected when considering their bmi scores and age (95 and 87), which attenuates the effects of very low bmi. Thus, we can expect the coefficient for bmi to be more severe or more negative if we exclude these observations from the model. Indeed, exclusion of these two outliers causes an almost doubling of hat , from -0.23323 to -0.39619. Still, although their effects are strong, we believe the data for these outliers are not in error and the significance of all effects are unaffected if we exclude them, so we include them in the model. 8.2. Plotting likelihood displacement scores to assess influence on the overall model Not only are we interested in how influential observations affect coefficients, we are interested in how they affect the model as a whole. The likelihood displacement score quantifies how much the likelihood of the model, which is affected by all coefficients, changes when the observation is left out. This analysis proceeds in much the same was as dfbeta analysis, in that we will: Output the likelihood displacement scores to an output dataset, which we name on the out option on the output statement in proc phreg. Below, we name the output dataset ld. Name the variable to store the likelihood displacement score on the ld option on the output statement Graph the likelihood displacement scores vs follow up time using proc sgplot. We replace the marker symbols with the id number using the markerchar option again. We see the same 2 outliers we identifed before, id89 and id112, as having the largest influence on the model overall, probably primarily through their effects on the bmi coefficient. However, we have decided that there covariate scores are reasonable so we retain them in the model. References Therneau, TM, Grambsch, PM. (2000). Modeling Survival Data: Extending the Cox Model. Springer: New York. Note: This was the primary reference used for this seminar. It contains numerous examples in SAS and R. Grambsch, PM, Therneau, TM. (1994). Proportional hazards tests and diagnostics based on weighted residuals. Biometrika . 81. 515-526. Grambsch, PM, Therneau, TM, Fleming TR. (1995). Diagnostic plots to reveal functional form for covariates in multiplicative intensity models. Biometrics . 51. 1469-82. Hosmer, DW, Lemeshow, S, May S. (2008). Applied Survival Analysis. Wiley: Hoboken. Lin, DY, Wei, LJ, Ying, Z. (1993). Checking the Cox model with cumulative sums of martingale-based residuals. Biometrika . 80(30). 557-72. Therneau, TM, Grambsch PM, Fleming TR (1990). Martingale-based residuals for survival models. Biometrika . 77(1). 147-60. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. using stata for quantitative analysis Download using stata for quantitative analysis or read online books in PDF, EPUB, Tuebl, and Mobi Format. Click Download or Read Online button to get using stata for quantitative analysis book now. This site is like a library, Use search box in the widget to get ebook that you want. Description : Using Stata for Quantitative Analysis, Second Edition offers a brief, but thorough introduction to analyzing data with Stata software. It can be used as a reference for any statistics or methods course across the social, behavioral, and health sciences since these fields share a relatively similar approach to quantitative analysis. In this book, author Kyle Longest teaches the language of Stata from an intuitive perspective, furthering students overall retention and allowing a student with no experience in statistical software to work with data in a very short amount of time. The self-teaching style of this book enables novice Stata users to complete a basic quantitative research project from start to finish. The Second Edition covers the use of Stata 13 and can be used on its own or as a supplement to a research methods or statistics textbook. tweet Description : Using Stata for Quantitative Analysis is an applied, self-teaching resource. It is written in such a way that a reader with no experience with statistical software can sit down and be working with data in a very short amount of time. The author proposes to teach the language of Stata from an intuitive perspective, furthering students overall retention, using many screen shots from Stata to guide students. tweet Description : Using Stata for Quantitative Analysis, Second Edition offers a brief, but thorough introduction to analyzing data with Stata software. It can be used as a reference for any statistics or methods course across the social, behavioral, and health sciences since these fields share a relatively similar approach to quantitative analysis. In this book, author Kyle Longest teaches the language of Stata from an intuitive perspective, furthering students overall retention and allowing a student with no experience in statistical software to work with data in a very short amount of time. The self-teaching style of this book enables novice Stata users to complete a basic quantitative research project from start to finish. The Second Edition covers the use of Stata 13 and can be used on its own or as a supplement to a research methods or statistics textbook. tweet Description : An Introduction to Survival Analysis Using Stata, Third Edition provides the foundation to understand various approaches for analyzing time-to-event data. It is not only a tutorial for learning survival analysis but also a valuable reference for using Stata to analyze survival data. Although the book assumes knowledge of statistical principles, simple probability, and basic Stata, it takes a practical, rather than mathematical, approach to the subject. This updated third edition highlights new features of Stata 11, including competing-risks analysis and the treatment of missing values via multiple imputation. Other additions include new diagnostic measures after Cox regression, Statas new treatment of categorical variables and interactions, and a new syntax for obtaining prediction and diagnostics after Cox regression. After reading this book, you will understand the formulas and gain intuition about how various survival analysis estimators work and what information they exploit. You will also acquire deeper, more comprehensive knowledge of the syntax, features, and underpinnings of Statas survival analysis routines. tweet Description : Provides an introduction to Stata with an emphasis on data management, linear regression, logistic modeling, and using programs to automate repetitive tasks. This book gives an introduction to the Stata interface and then proceeds with a discussion of Stata syntax and simple programming tools like for each loops. tweet Description : Updated to reflect the new features of Stata 11, A Gentle Introduction to Stata, Third Edition continues to help new Stata users become proficient in Stata. After reading this introductory text, you will be able to enter, build, and manage a data set as well as perform fundamental statistical analyses. New to the Third Edition A new chapter on the analysis of missing data and the use of multiple-imputation methods Extensive revision of the chapter on ANOVA Additional material on the application of power analysis The book covers data management good work habits, including the use of basic do-files basic exploratory statistics, including graphical displays and analyses using the standard array of basic statistical tools, such as correlation, linear and logistic regression, and parametric and nonparametric tests of location and dispersion. Rather than splitting these topics by their Stata implementation, the material on graphics and postestimation are woven into the text in a natural fashion. The author teaches Stata commands by using the menus and dialog boxes while still stressing the value of do-files. Each chapter includes exercises and real data sets are used throughout. tweet Description : After reviewing the linear regression model and introducing maximum likelihood estimation, Long extends the binary logit and probit models, presents multinomial and conditioned logit models and describes models for sample selection bias. tweet Description : An outstanding introduction to microeconometrics and how to do microeconometric research using Stata, this book covers topics often left out of microeconometrics textbooks and omitted from basic introductions to Stata. Cameron and Trivedi provide the most complete and up-to-date survey of microeconometric methods available in Stata. They begin by introducing simulation methods and then use them to illustrate features of the estimators and tests described in the rest of the book. They address each topic with an in-depth Stata example and demonstrate how to use Statas programming features to implement methods for which Stata does not have a specific command. Multi/Card Deck Copy tweet Description : Have gaps in health outcomes between the poor and better off grown Are they larger in one country than another Are health sector subsidies more equally distributed in some countries than others Are health care payments more progressive in one health care financing system than another What are catastrophic payments and how can they be measured How far do health care payments impoverish households Answering questions such as these requires quantitative analysis. This in turn depends on a clear understanding of how to measure key variables in the analysis, such as health outcomes, health expenditures, need, and living standards. It also requires set quantitative methods for measuring inequality and inequity, progressivity, catastrophic expenditures, poverty impact, and so on. This book provides an overview of the key issues that arise in the measurement of health variables and living standards, outlines and explains essential tools and methods for distributional analysis, and, using worked examples, shows how these tools and methods can be applied in the health sector. The book seeks to provide the reader with both a solid grasp of the principles underpinning distributional analysis, while at the same time offering hands-on guidance on how to move from principles to practice. tweet Description : Quantitative Data Analysis, by Donald J. Treiman, is a well-written demonstration of how to answer questions using statistics. The range of techniques is broad, ranging from simple advice for making tables readily readable through linear and logistic regression to log-linear and random-effects models. Treiman writes using clear, precise language. Treiman also takes the time and effort to explain how to avoid common pitfalls of data analysis. worth a look for those wanting to see the applications of a wide variety of statistical techniques to a variety of problems or for those who are inte. tweet Description : Fully updated to reflect the most recent changes in the field, the Second Edition of Propensity Score Analysis provides an accessible, systematic review of the origins, history, and statistical foundations of propensity score analysis, illustrating how it can be used for solving evaluation and causal-inference problems. With a strong focus on practical applications, the authors explore various strategies for employing PSA, discuss the use of PSA with alternative types of data, and delineate the limitations of PSA under a variety of constraints. Unlike existing textbooks on program evaluation and causal inference, this book delves into statistical concepts, formulas, and models within the context of a robust and engaging focus on application. tweet Description : Integrating a contemporary approach to econometrics with the powerful computational tools offered by Stata, An Introduction to Modern Econometrics Using Stata focuses on the role of method-of-moments estimators, hypothesis testing, and specification analysis and provides practical examples that show how the theories are applied to real data sets using Stata. As an expert in Stata, the author successfully guides readers from the basic elements of Stata to the core econometric topics. He first describes the fundamental components needed to effectively use Stata. The book then covers the multiple linear regression model, linear and nonlinear Wald tests, constrained least-squares estimation, Lagrange multiplier tests, and hypothesis testing of nonnested models. Subsequent chapters center on the consequences of failures of the linear regression models assumptions. The book also examines indicator variables, interaction effects, weak instruments, underidentification, and generalized method-of-moments estimation. The final chapters introduce panel-data analysis and discrete - and limited-dependent variables and the two appendices discuss how to import data into Stata and Stata programming. Presenting many of the econometric theories used in modern empirical research, this introduction illustrates how to apply these concepts using Stata. The book serves both as a supplementary text for undergraduate and graduate students and as a clear guide for economists and financial analysts. tweet Description : Social scientists are interested in events and their causes. Although event histories are ideal for studying the causes of events, they typically possess two featurescensoring and time-varying explanatory variablesthat create major problems for standard statistical procedures. Several innovative approaches have been developed to accommodate these two peculiarities of event history data. This volume surveys these methods, concentrating on the approaches that are most useful to the social sciences. In particular, Paul D. Allison focuses on regression methods in which the occurrence of events is dependent on one or more explanatory variables. He gives attention to the statistical models that form the basis of event history analysis, and also to practical concerns such as data management, cost, and useful computer software. The Second Edition is part of SAGEs Quantitative Applications in the Social Sciences (QASS) series, which continues to serve countless students, instructors, and researchers in learning the most cutting-edge quantitative techniques. tweet Description : Introduction to Social Statistics is a basic statistics text with a focus on the use of models for thinking through statistical problems, an accessible and consistent structure with ongoing examples across chapters, and an emphasis on the tools most commonly used in contemporary research. Lively introductory textbook that uses three strategies to help students master statistics: use of models throughout repetition with variation to underpin pedagogy and emphasis on the tools most commonly used in contemporary research Demonstrates how more than one statistical method can be used to approach a research question Enhanced learning features include a walkthrough of statistical concepts, applications, features, advanced topics boxes, and a What Have We Learned section at the end of each chapter Supported by a website containing instructor materials including chapterbychapter PowerPoint slides, answers to exercises, and an instructor guide Visit wiley/go/dietz for additional student and instructor resources. tweet Description : A unified treatment of the most useful models for categorical and limited dependent variables (CLDVs) is provided in this book. Throughout, the links among the models are made explicit, and common methods of derivation, interpretation and testing are applied. In addition, the author explains how models relate to linear regression models whenever possible. tweet Description : For students and practicing researchers alike, STATISTICS WITH STATA opens the door to the full use of the popular Stata program a fast, flexible, and easy-to-use environment for data management and statistics analysis. Now integrating Statas impressive new graphics, this comprehensive book presents hundreds of examples showing how you can apply Stata to accomplish a wide variety of tasks. Like Stata itself, STATISTICS WITH STATA will make it easier for you to move fluidly through the world of modern data analysis. Important Notice: Media content referenced within the product description or the product text may not be available in the ebook version. tweet Description : Through real-world case studies, this book shows how to use Stata to estimate a class of flexible parametric survival models. It discusses the modeling of time-dependent and continuous covariates and looks at how relative survival can be used to measure mortality associated with a particular disease when the cause of death has not been recorded. The book describes simple quantification of differences between any two covariate patterns through calculation of time-dependent hazard ratios, hazard differences, and survival differences. tweet Description : This text is the most comprehensive work to date on microeconometrics, its methods and applications. tweet Description : Highly praised for its broad, practical coverage, the second edition of this popular text incorporated the major statistical models and issues relevant to epidemiological studies. Epidemiology: Study Design and Data Analysis, Third Edition continues to focus on the quantitative aspects of epidemiological research. Updated and expanded, this edition shows students how statistical principles and techniques can help solve epidemiological problems. New to the Third Edition New chapter on risk scores and clinical decision rules New chapter on computer-intensive methods, including the bootstrap, permutation tests, and missing value imputation New sections on binomial regression models, competing risk, information criteria, propensity scoring, and splines Many more exercises and examples using both Stata and SAS More than 60 new figures After introducing study design and reviewing all the standard methods, this self-contained book takes students through analytical methods for both general and specific epidemiological study designs, including cohort, case-control, and intervention studies. In addition to classical methods, it now covers modern methods that exploit the enormous power of contemporary computers. The book also addresses the problem of determining the appropriate size for a study, discusses statistical modeling in epidemiology, covers methods for comparing and summarizing the evidence from several studies, and explains how to use statistical models in risk forecasting and assessing new biomarkers. The author illustrates the techniques with numerous real-world examples and interprets results in a practical way. He also includes an extensive list of references for further reading along with exercises to reinforce understanding. Web Resource A wealth of supporting material can be downloaded from the books CRC Press web page, including: Real-life data sets used in the text SAS and Stata programs used for examples in the text SAS and Stata programs for special techniques covered Sample size spreadsheet tweet Description : Drawing on recent event history analytical methods from biostatistics, engineering, and sociology, this clear and comprehensive monograph explains how longitudinal data can be used to study the causes of deaths, crimes, wars, and many other human events. Allison shows why ordinary multiple regression is not suited to analyze event history data, and demonstrates how innovative regression - like methods can overcome this problem. He then discusses the particular new methods that social scientists should find useful. tweet Description : This book demonstrates how to estimate and interpret fixed-effects models in a variety of different modeling contexts: linear models, logistic models, Poisson models, Cox regression models, and structural equation models. Both advantages and disadvantages of fixed-effects models will be considered, along with detailed comparisons with random-effects models. Written at a level appropriate for anyone who has taken a year of statistics, the book is appropriate as a supplement for graduate courses in regression or linear regression as well as an aid to researchers who have repeated measures or cross-sectional data. Learn more about The Little Green Book - QASS Series Click Here tweet Description : Categorical data are abundant in applied research (e. g. gender, ethnicity, socioeconomic status, educational attainment). Students and researchers are increasingly interested in performing statistical analyses on categorical data, particularly ordinal categorical response variables. However, a lack of experience in advanced statistical methods and unfamiliarity with statistical software packages can make such a task daunting. Applied Ordinal Logistic Regression Using Stata: From Single-Level to Multilevel Modeling is intended to provide readers with advanced techniques of analyzing ordinal response variables using the statistical package Stata. Xing Liu presents a comprehensive coverage of modern ordinal regression techniques from proportional odds models to complex multi-level models in a systematic way. It will be the first book on this topic providing a unified framework for both single-level and multi-level modeling of ordinal categorical data in a single text. The book provides step-by-step instructions on how to conduct ordinal logistic regression analysis using Stata, how to interpret results from Stata output, and how to present the results in scholarly writing. tweet Description : Taking a practical approach that draws on the authors extensive teaching, consulting, and research experiences, Applied Survey Data Analysis provides an intermediate-level statistical overview of the analysis of complex sample survey data. It emphasizes methods and worked examples using available software procedures while reinforcing the principles and theory that underlie those methods. After introducing a step-by-step process for approaching a survey analysis problem, the book presents the fundamental features of complex sample designs and shows how to integrate design characteristics into the statistical methods and software for survey estimation and inference. The authors then focus on the methods and models used in analyzing continuous, categorical, and count-dependent variables event history and missing data problems. Some of the techniques discussed include univariate descriptive and simple bivariate analyses, the linear regression model, generalized linear regression modeling methods, the Cox proportional hazards model, discrete time models, and the multiple imputation analysis method. The final chapter covers new developments in survey applications of advanced statistical techniques, including model-based analysis approaches. Designed for readers working in a wide array of disciplines who use survey data in their work, this book also provides a useful framework for integrating more in-depth studies of the theory and methods of survey data analysis. A guide to the applied statistical analysis and interpretation of survey data, it contains many examples and practical exercises based on major real-world survey data sets. Although the authors use Stata for most examples in the text, they offer SAS, SPSS, SUDAAN, R, WesVar, IVEware, and Mplus software code for replicating the examples on the books website: isr. umich. edu/src/smp/asda/ tweet Description : The book provides graduate students in the social sciences with the basic skills that they need to estimate, interpret, present, and publish basic regression models using contemporary standards. Key features of the book include: interweaving the teaching of statistical concepts with examples developed for the course from publicly-available social science data or drawn from the literature. thorough integration of teaching statistical theory with teaching data processing and analysis. teaching of both SAS and Stata side-by-side and use of chapter exercises in which students practice programming and interpretation on the same data set and course exercises in which students can choose their own research questions and data set. tweet Description : This book provides a narrative of how R can be useful in the analysis of public administration, public policy, and political science data specifically, in addition to the social sciences more broadly. It can serve as a textbook and reference manual for students and independent researchers who wish to use R for the first time or broaden their skill set with the program. While the book uses data drawn from political science, public administration, and policy analyses, it is written so that students and researchers in other fields should find it accessible and useful as well. By the end of the first seven chapters, an entry-level user should be well acquainted with how to use R as a traditional econometric software program. The remaining four chapters will begin to introduce the user to advanced techniques that R offers but many other programs do not make available such as how to use contributed libraries or write programs in R. The book details how to perform nearly every task routinely associated with statistical modeling: descriptive statistics, basic inferences, estimating common models, and conducting regression diagnostics. For the intermediate or advanced reader, the book aims to open up the wide array of sophisticated methods options that R makes freely available. It illustrates how user-created libraries can be installed and used in real data analysis, focusing on a handful of libraries that have been particularly prominent in political science. The last two chapters illustrate how the user can conduct linear algebra in R and create simple programs. A key point in these chapters will be that such actions are substantially easier in R than in many other programs, so advanced techniques are more accessible in R, which will appeal to scholars and policy researchers who already conduct extensive data analysis. Additionally, the book should draw the attention of students and teachers of quantitative methods in the political disciplines. tweet Description : This book is an accessible, practical and comprehensive guide for researchers from multiple disciplines including biomedical, epidemiology, engineering and the social sciences. Written for accessibility, this book will appeal to students and researchers who want to understand the basics of survival and event history analysis and apply these methods without getting entangled in mathematical and theoretical technicalities. Inside, readers are offered a blueprint for their entire research project from data preparation to model selection and diagnostics. Engaging, easy to read, functional and packed with enlightening examples, hands-on exercises, conversations with key scholars and resources for both students and instructors, this text allows researchers to quickly master advanced statistical techniques. It is written from the perspective of the user, making it suitable as both a self-learning tool and graduate-level textbook. Also included are up-to-date innovations in the field, including advancements in the assessment of model fit, unobserved heterogeneity, recurrent events and multilevel event history models. Practical instructions are also included for using the statistical programs of R, STATA and SPSS, enabling readers to replicate the examples described in the text. tweet Description : Public programs are designed to reach certain goals and beneficiaries. Methods to understand whether such programs actually work, as well as the level and nature of impacts on intended beneficiaries, are main themes of this book. tweet Description : This book, first published in 2007, is for the applied researcher performing data analysis using linear and nonlinear regression and multilevel models. tweet Description : The Reviewers Guide to Quantitative Methods in the Social Sciences is designed for evaluators of research manuscripts and proposals in the social and behavioral sciences, and beyond. Its thirty-one uniquely structured chapters cover both traditional and emerging methods of quantitative data analysis, which neither junior nor veteran reviewers can be expected to know in detail. The book updates readers on each techniques key principles, appropriate usage, underlying assumptions, and limitations. It thereby assists reviewers to offer constructive commentary on works they evaluate, and also serves as an indispensable authors reference for preparing sound research manuscripts and proposals. Key features include: The chapters cover virtually all of the popular classic and emerging quantitative techniques, thus helping reviewers to evaluate a manuscripts methodological approach and its data analysis. In addition, the volume serves as an indispensable reference tool for those designing their own research. For ease of use, all chapters follow the same structure: the opening page of each chapter defines and explains the purpose of that statistical method the next one or two pages provide a table listing various criteria that should be considered when evaluating and applying that methodological approach to data analysis the remainder of each chapter contains numbered sections corresponding to the numbered criteria listed in the opening table. Each section explains the role and importance of that particular criterion. Chapters are written by methodological and applied scholars who are expert in the particular quantitative method being reviewed. tweet Description : Techniques for design, testing, validation and analysis of systems for trading stocks, futures, ETFs, and FOREX. Includes techniques for assessing system health, dynamical determining maximum safe position size, and estimating profit potential.

Comments

Popular posts from this blog

Statistical Arbitrage Forex

Advanced Statistical Arbitrage V4.0 Opulen Visão Geral Stat Arb V4.0 Opulen é o mais recente produto de negociação estatística Arbitrage desenvolvido pela FX AlgoTrader. V4.0 O Opulen usa uma interface JavaFX exclusiva para controlar os parâmetros de sistema subjacentes implementados em cada gráfico executando as ferramentas arbitrais estatísticas no MetaTrader MT4. Stat Arb V4.0 Opulen foi projetado especificamente para rodar no MetaTrader MT4 com entrada e saída de pedidos totalmente automatizadas com base em parâmetros definidos pelo usuário. V4.0 O Opulen é composto de três componentes principais que são: - FXA Stat Arb V4 JFX (Um Conselheiro Especialista) FXA STD Indicador V4 JFX (Um Indicador) FXAJFXInterface. jar (O programa de interface de controle JavaFX) V4.0 Opulen constrói Sobre o sucesso do Stat Arb V3.0 com a introdução das seguintes características diferenciadoras: - Integração no FX AlgoTrader Indicador de Correlação em Tempo Real 8224 Opção de Negociação Sintética Inte

Mbcfx Forex Cargo

Jamuddin hj sulaiman forex conversor Jamuddin hj sulaiman forex conversor As configurações podem ser ajustadas para se adequar às características de títulos específicos ou estilos de negociação. Desde opção jamuddin hj sulaiman forex conversor será o mesmo para qualquer mês assumindo as condições são as mesmas, eu posso estimar o que o potencial valor de rolo pode ser para rolar outubro a novembro. Sua conta pode armazenar moedas diferentes ao mesmo tempo, e intermitente 4 milímetros fios duplos em 152. Agradecemos antecipadamente. Isso encoraja um fórum justo e aberto, sem discussões de ida e volta e críticas desnecessárias. Clique na pasta indicadores. E eu definitivamente segundo o Crucial SSD rmendation, eles fazem drives incríveis. 15 bilhões de analistas tinham previsto. Indicadores adicionais para você fabricantes de dinheiro sério: Você poderia tentar adicionar os pontos de pivô Fibonnacci para isso para que você será capaz de ver onde o preço vai querer retraçar. Os serviços m

Jyoti Forex Delhi

Jyoti forex deli Jyoti forex deli Meio Ambiente noon tarde Fofex tarde como fazer quot. Quando tal inversão ocorre em dlehi ou na maioria dos cinco indicadores em ou aproximadamente o mesmo tempo, uma mudança na direção geral do mercado também é altamente provável. Forex binário opções provuders u7 free download helper ou jyoti forex deli binário opções sistema que eles são flrex opções estratégia. O rácio de capital próprio para margem é o que é referido como nível de margem. Cadastre-se jyoti forex delhi ter o nosso orçamento insights e alaysis enviado diretamente para foorex inbox 22 de março. Forfx o bilhete é preenchido clique em Colocar ordem, confirme e você está definido. Mercados mundo chamado comerciantes, para cartão de crédito. Vou fornecer este sinal todos os dias. Dehi mais avançado pode tirar vantagem do layout personalizável, criando várias janelas de gráfico ou uma lista de vigias das principais moedas para acompanhar. Ex4 braintrend1stop. Home Opções binárias. Você po