Sunday 12 November 2017

Modello Di Meta Nel Forex Stata


AVVISO: Il gruppo di consulenza Idre statistica sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare la manutenzione e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca digitale e l'istruzione Aiuto Consulting Group Stat dando un regressione regalo con Stata Capitolo 1 - semplice e multipla Regressione Capitolo Outline 1.0 Introduzione 1.1 Un dati prima analisi di regressione 1.2 Esaminando 1.3 Semplice regressione lineare 1.4 regressione multipla 1.5 variabili Trasformare 1.6 Sintesi della valutazione 1.7 Auto 1.8 per ulteriori informazioni Questo libro si compone di quattro capitoli che coprono una varietà di argomenti sull'utilizzo Stata per la regressione. Dobbiamo sottolineare che questo libro è di circa analysisquot quotdata e che dimostra come Stata può essere utilizzato per l'analisi di regressione, al contrario di un libro che copre la base statistica di regressione multipla. Partiamo dal presupposto che hai avuto almeno un corso statistiche che coprono l'analisi di regressione e che si dispone di un libro di regressione che è possibile utilizzare come riferimento (vedere la regressione con la pagina Stata e le nostre statistiche Libri per Loan pagina per i libri di analisi di regressione consigliati). Questo libro è stato progettato per applicare le tue conoscenze di regressione, si combinano con le istruzioni su Stata, per eseguire, comprendere e interpretare le analisi di regressione. Questo primo capitolo coprirà argomenti in regressione semplice e multipla, così come le attività di sostegno che sono importanti nella preparazione per analizzare i dati, per esempio il controllo dei dati, familiarizzare con il file di dati, ed esaminando la distribuzione delle variabili. Illustreremo le basi della regressione semplice e multipla e dimostrare l'importanza di ispezionare, controllare e verificare i dati prima di accettare i risultati delle analisi. In generale, speriamo di dimostrare che i risultati della vostra analisi di regressione possono essere fuorvianti senza ulteriori sondare dei dati, che potrebbero rivelare relazioni che un'analisi casuale potrebbe trascurare. In questo capitolo, e nei capitoli successivi, useremo un file di dati che è stato creato da campionando in modo casuale 400 scuole elementari dal California Department of Educations API 2.000 set di dati. Questo file di dati contiene una misura di scuola di rendimento scolastico, così come altri attributi delle scuole elementari, come ad esempio, la dimensione delle classi, l'iscrizione, la povertà, ecc Si può accedere a questo file di dati sul web dall'interno Stata con il comando Stata utilizzare come illustrato di seguito. Nota: Non digitare il punto iniziale nel comando - il punto è una convenzione per indicare che l'istruzione è un comando Stata. Dopo aver letto il file, probabilmente si desidera memorizzare una copia di esso sul vostro computer (in modo da non aver bisogno di leggerlo attraverso il web ogni volta). Diciamo si utilizza Windows e si desidera memorizzare il file in una cartella denominata C: regstata (è possibile scegliere un nome diverso, se volete). In primo luogo, è possibile effettuare questa cartella all'interno Stata usando il comando mkdir. Possiamo quindi passare a quella directory usando il comando cd. E poi se si salva il file verrà salvato nella cartella c: regstata. Consente di salvare il file come elemapi. Ora il file di dati viene salvato come C: regstataelemapi. dta e si potrebbe chiudere Stata e il file di dati sarebbe ancora lì. Quando si desidera utilizzare il file in futuro, si sarebbe solo utilizzare il comando cd per passare alla directory C: regstata (o come si chiama) e quindi utilizzare il file elemapi. 1.1 Una prima analisi di regressione Consente destra in immersione ed eseguire un'analisi di regressione utilizzando il api00 variabili. acsk3. pasti e pieno. Esse misurano il rendimento scolastico della scuola (api00), la dimensione media della classe alla scuola materna attraverso 3 ° grado (acsk3), la percentuale di studenti che ricevono pasti gratuiti (pasti) - che è un indicatore della povertà, e la percentuale di insegnanti che hanno le credenziali di insegnamento completo (completo). Ci aspettiamo che migliori il rendimento scolastico sarebbe associato con dimensioni inferiori di classe, un minor numero di studenti che ricevono pasti gratuiti, e una più alta percentuale di insegnanti con credenziali di insegnamento completo. Qui di seguito, vi mostriamo il comando Stata per testare questo modello di regressione, seguito dall'uscita Stata. Consente di concentrarsi sui tre predittori, se sono statisticamente significativi e, in caso affermativo, la direzione della relazione. La dimensione media della classe (acsk3. B-2.68), non è statisticamente significativo al livello 0,05 (p0.055), ma solo così. Il coefficiente è negativo che indicherebbe che più grande dimensione della classe è legata ad abbassare il rendimento scolastico - che è quello che ci si aspetterebbe. Successivamente, l'effetto di pasti (B-3,70, P.000) è significativo e il suo coefficiente è negativo indica che maggiore è la percentuale degli studenti che riceve pasti gratuiti, minore è il rendimento scolastico. Si prega di notare che non stiamo dicendo che i pasti liberi stanno causando rendimento scolastico più basso. La variabile pasti è altamente correlata al livello di reddito e più funzioni come proxy per la povertà. Così, più elevati livelli di povertà sono associati a più basso rendimento scolastico. Questo risultato ha anche senso. Infine, la percentuale di insegnanti con credenziali complete (. B0.11 pieni, P.232) sembra essere in rapporto con il rendimento scolastico. Questo sembra indicare che la percentuale di docenti con credenziali complete non è un fattore importante nel predire rendimento scolastico - questo risultato era piuttosto inaspettato. Dovremmo prendere questi risultati e scrivere per la pubblicazione Da questi risultati, dovremmo concludere che le dimensioni delle classi inferiori sono relative a prestazioni più elevate, che un minor numero di studenti che ricevono pasti gratuiti è associata a prestazioni più elevate, e che la percentuale di insegnanti con credenziali complete era non relative a rendimento scolastico nelle scuole. Prima di scrivere questo per la pubblicazione, dobbiamo fare una serie di controlli per assicurarsi che possiamo fermamente stare dietro questi risultati. Iniziamo da ottenere più familiarità con il file di dati, facendo verifica preliminare dei dati, alla ricerca di errori nei dati. 1.2 L'esame dei dati In primo luogo, permette di utilizzare il comando descrivere per saperne di più su questo file di dati. Siamo in grado di verificare il numero di osservazioni che ha e vedere i nomi delle variabili in esso contenuti. Per fare questo, ci è sufficiente digitare Noi non entreremo in tutti i dettagli di questa uscita. Si noti che ci sono 400 osservazioni e 21 variabili. Abbiamo variabili circa rendimento scolastico nel 2000 e nel 1999 e il cambiamento nelle prestazioni, api00. rispettivamente api99 e la crescita. Abbiamo anche diverse caratteristiche delle scuole, ad esempio dimensione della classe, l'educazione dei genitori, per cento degli insegnanti con credenziali complete e di emergenza, e il numero di studenti. Si noti che quando abbiamo fatto la nostra analisi di regressione originale ha detto che ci sono stati 313 osservazioni, ma il comando descrivere indica che abbiamo 400 osservazioni nel file di dati. Se vuoi saperne di più sul file di dati, è possibile elencare tutte o alcune delle osservazioni. Ad esempio, di seguito elenchiamo i primi cinque osservazioni. Questo richiede un sacco di spazio sulla pagina, ma non ci dà un sacco di informazioni. Listing i nostri dati può essere molto utile, ma è più utile se si elencano solo le variabili a cui è interessato. Consente di elencare i primi 10 osservazioni per le variabili che abbiamo esaminato nella nostra prima analisi di regressione. Vediamo che tra le prime 10 osservazioni, abbiamo quattro valori mancanti per i pasti. E 'probabile che i dati mancanti per i pasti avevano qualcosa a che fare con il fatto che il numero di osservazioni in nostra prima analisi di regressione era 313 e non 400. Un altro strumento utile per conoscere le variabili è il comando codebook. Consente di fare codebook per le variabili che abbiamo incluso nell'analisi di regressione, così come la yrrnd variabile. Abbiamo intervallati alcuni commenti su questa uscita tra parentesi quadre e in grassetto. Il comando codebook ha scoperto una serie di peculiarità degne di un ulteriore esame. Consente di utilizzare il comando riassumere per saperne di più su queste variabili. Come mostrato di seguito, il comando summarize rivela anche il gran numero di valori mancanti per i pasti (400 - 315 85) e vediamo il minimo insolito per acsk3 di -21. Consente di ottenere una sintesi più dettagliata per acsk3. In Stata, la virgola dopo l'elenco variabile indica che le opzioni di seguire, in questo caso, l'opzione è dettaglio. Come potete vedere qui sotto, l'opzione detail ti dà i percentili, i quattro valori più grandi e più piccole, misure di tendenza centrale e varianza, ecc Nota che riassumono. e altri comandi, possono essere abbreviati: avremmo potuto digitato somma acsk3, d. Sembra come se alcune delle dimensioni delle classi in qualche modo è diventato negativo, come se un segno negativo è stato erroneamente digitato di fronte a loro. Consente di fare un tabulate di dimensione della classe per vedere se questo sembra plausibile. In effetti, sembra che alcune delle dimensioni delle classi in qualche modo ha ottenuto segni negativi messi di fronte a loro. Consente di guardare il numero di scuole e di distretto per queste osservazioni per vedere se provengono dallo stesso distretto. Infatti, vengono tutti dal quartiere 140. consente di guardare tutte le osservazioni per il quartiere 140. Tutte le osservazioni dal quartiere 140 sembrano avere questo problema. Quando si trova un tale problema, si vuole tornare alla fonte originale dei dati per verificare i valori. Dobbiamo rivelare che fabbricato questo errore per scopi illustrativi, e che i dati effettivi avuto nessun problema. Consente finta che abbiamo controllato con il distretto 140 e c'era un problema con i dati lì, un trattino è stato accidentalmente messo di fronte alle dimensioni delle classi che li rende negativo. Faremo una nota a risolvere il problema Consente di continuare a controllare i nostri dati. Diamo un'occhiata ad alcuni metodi grafici per l'ispezione dei dati. Per ogni variabile, è utile per ispezionare utilizzando un istogramma, boxplot, e stelo-foglia trama. Questi grafici in grado di mostrare le informazioni sulla forma delle variabili meglio di semplici statistiche numeriche può. Sappiamo già circa il problema con acsk3. ma permette di vedere come questi metodi grafici avrebbe rivelato il problema con questa variabile. In primo luogo, ci mostra un istogramma per acsk3. Questo ci mostra le osservazioni in cui la dimensione media della classe è negativo. Allo stesso modo, un grafico a scatole avrebbe chiamato queste osservazioni alla nostra attenzione pure. Si può vedere il modo in cui le osservazioni negative periferico nella parte inferiore del grafico a scatole. Infine, una trama ramo-foglia avrebbe anche aiutato a identificare queste osservazioni. Questo grafico mostra i valori esatti delle osservazioni, che indica che ci sono stati tre -21s, due -20s, e un -19. Si consiglia di tracciare tutti questi grafici per le variabili sarete analisi. Noi omettere, per motivi di spazio, mostrando questi grafici per tutte le variabili. Tuttavia, esaminando le variabili, la trama ramo-foglia per la piena sembrava piuttosto insolito. Fino ad ora, non abbiamo visto nulla di problematico con questa variabile, ma guardare la trama stelo e foglia per la piena di seguito. Essa mostra 104 osservazioni dove la percentuale con credenziali completa è inferiore a uno. Si tratta di oltre 25 delle scuole, e sembra molto insolito. Consente di guardare la distribuzione di frequenza della piena per vedere se siamo in grado di capire meglio. I valori vanno 0,42-1,0, poi saltate a 37 e salire da lì. Sembra come se alcune delle percentuali sono effettivamente iscritti nelle proporzioni, per esempio 0.42 è stato inserito al posto di 42 o 0,96 che in realtà avrebbe dovuto essere 96. Vediamo che quartiere (s) questi dati provengono da. Notiamo che tutti i 104 osservazioni in cui piena era inferiore o uguale a uno venuto dal quartiere 401. Consente di contare quante osservazioni ci sono nel quartiere 401 utilizzando il comando conteggio e vediamo quartiere 401 dispone di 104 osservazioni. Tutte le osservazioni di questo quartiere sembra essere registrato come proporzioni, invece di percentuali. Anche in questo caso, dobbiamo affermare che questo è un problema finta che abbiamo inserito nei dati per scopi illustrativi. Se questo fosse un vero e proprio problema di vita, abbiamo fatto il check con la fonte dei dati e verificare il problema. Faremo una nota per risolvere questo problema nei dati pure. Un'altra tecnica grafica utile per lo screening dei dati è una matrice a dispersione. Mentre questo è probabilmente più rilevante come strumento diagnostico alla ricerca di non-linearità e valori anomali nei dati, ma può anche essere uno strumento di screening dei dati utili, possibilmente informazioni rivelatrice nelle distribuzioni congiunte delle variabili che non sarebbe evidente dall'esame distribuzioni univariate . Vediamo la matrice a dispersione per le variabili nel nostro modello di regressione. Questo rivela i problemi che abbiamo già individuati, vale a dire le dimensioni delle classi negativi e la percentuale totale delle credenziali di essere inserito come proporzioni. Abbiamo identificato tre problemi attualmente in vendita. Ci sono numerosi valori mancanti per i pasti. ci sono stati negativi accidentalmente inseriti prima di alcune delle dimensioni delle classi (acsk3) e più di un quarto dei valori per la piena erano proporzioni invece di percentuali. La versione corretta dei dati è chiamato elemapi2. Consente di utilizzare il file di dati e ripetere la nostra analisi e vedere se i risultati sono gli stessi che la nostra analisi originale. In primo luogo, permette di ripetere la nostra analisi di regressione originale di seguito. Ora, consente di utilizzare il file di dati corretti e ripetere l'analisi di regressione. Vediamo una certa differenza nei risultati Nell'analisi originale (sopra), acsk3 era quasi significativo, ma nell'analisi corretta (sotto) i risultati mostrano questa variabile non significativa, forse per i casi in cui è stato dato dimensione della classe a valore negativo. Analogamente, la percentuale di docenti con credenziali complete non era significativa nell'analisi originale, ma è significativo nell'analisi corretto, forse a causa di casi in cui il valore è stato dato come la proporzione con tutti credenziali anziché la percentuale. Si noti inoltre che l'analisi corretta si basa su 398 osservazioni invece di 313 osservazioni, a causa di ottenere i dati completi per la variabile pasti che aveva un sacco di valori mancanti. Da questo punto in avanti, useremo il corretto, elemapi2. file di dati. Si potrebbe desiderare di salvare questo sul vostro computer in modo da poter utilizzare nelle analisi future. Finora abbiamo coperto alcuni argomenti in checkingverification dei dati, ma non abbiamo davvero discusso l'analisi di regressione in sé. Consente ora comunicare di più circa l'esecuzione di analisi di regressione in Stata. 1.3 regressione lineare semplice Iniziamo mostrando alcuni esempi di semplice regressione lineare utilizzando Stata. In questo tipo di regressione, abbiamo una sola variabile predittiva. Questa variabile può essere continuo, nel senso che essa può assumere tutti i valori in un intervallo, per esempio, l'età o altezza, o può essere dicotomico, che significa che la variabile può assumere solo due valori, ad esempio, 0 o 1. Il uso di variabili categoriali con più di due livelli verrà trattato nel Capitolo 3. C'è solo una risposta o variabile dipendente, ed è continua. In Stata, la variabile dipendente è elencato immediatamente dopo il comando regresso seguito da una o più variabili predittive. Consente di esaminare il rapporto tra la dimensione della scuola e rendimento scolastico per vedere se la dimensione della scuola è legata al rendimento scolastico. Per questo esempio, api00 è la variabile dipendente e iscriversi è il predittore. Consente di rivedere questa uscita un po 'più attentamente. Innanzitutto, vediamo che l'F-test è statisticamente significativo, il che significa che il modello è statisticamente significativa. L'R-squared di .1012 mezzi che circa il 10 della varianza di api00 si spiega con il modello, in questo caso, iscriversi. Il t-test per iscriversi uguale -6,70, ed è statisticamente significativo, il che significa che il coefficiente di regressione per iscriversi è significativamente diverso da zero. Si noti che (-6,70) 2 44.89, che è la stessa come la statistica F (con qualche errore di arrotondamento). Il coefficiente per iscriversi è -.1998674, pari a circa -.2, il che significa che per un aumento di una unità di iscriversi. ci aspettiamo una diminuzione del 0,2 unità in api00. In altre parole, una scuola con 1100 studenti ci si aspetterebbe di avere una API punteggio di 20 unità inferiori a una scuola con 1000 studenti. La costante è 744,2514, e questo è il valore previsto quando iscriversi uguale a zero. Nella maggior parte dei casi, la costante non è molto interessante. Abbiamo preparato una uscita annotato che mostra l'output di questa regressione insieme con una spiegazione di ciascuno degli elementi in essa contenuti. Oltre a ottenere la tabella di regressione, può essere utile per visualizzare un grafico a dispersione delle variabili previste e risultati con la regressione tracciata. Dopo aver eseguito una regressione, è possibile creare una variabile che contiene i valori previsti utilizzando il comando prevedere. È possibile ottenere questi valori in qualsiasi momento dopo l'esecuzione di un comando regresso, ma ricordate che una volta che si esegue una nuova regressione, i valori previsti saranno basati sulla più recente regressione. Per creare valori previsti è sufficiente digitare prevedere e il nome di una variabile nuova Stata vi darà i valori adattati. Per questo esempio, il nuovo nome variabile sarà fv. quindi dovremo digitare Se usiamo il comando list, vediamo che un valore a muro è stato generato per ogni osservazione. Qui di seguito possiamo mostrare un grafico a dispersione della variabile esito, api00 e il predittore, iscriversi. Possiamo combinare dispersione con lfit per mostrare un grafico a dispersione con valori stimati. Come potete vedere, alcuni dei punti sembrano essere valori anomali. Se si utilizza l'opzione mlabel (SNUM) sul comando a dispersione, si può vedere il numero di scuole per ogni punto. Questo ci permette di vedere, per esempio, che uno dei valori anomali è la scuola 2910. Come abbiamo visto in precedenza, il comando prevedere può essere utilizzato per generare i valori previsti (in dotazione) dopo l'esecuzione regresso. È inoltre possibile ottenere i residui utilizzando il comando prevedere seguito da un nome di variabile, in questo caso e. con l'opzione residuo. Questo comando può essere abbreviato per prevedere e, resid o anche prevedere e, r. La tabella seguente mostra alcuni degli altri valori possono che essere creati con l'opzione prevedere. 1.4 regressione multipla Ora, consente di guardare un esempio di regressione multipla, in cui abbiamo un risultato variabile (dipendente) e più predittori. Prima di iniziare con il nostro prossimo esempio, abbiamo bisogno di prendere una decisione per quanto riguarda le variabili che abbiamo creato, perché creeremo variabili simili con la nostra regressione multipla, e noi non vogliamo ottenere le variabili confusi. Ad esempio, nella regressione semplice abbiamo creato una fv variabile per i nostri valori previsti (in dotazione) e di e per i residui. Se vogliamo creare valori previsti per il nostro prossimo esempio potremmo definire il valore previsto qualcosa di diverso, per esempio FVMR. ma questo potrebbe iniziare a ricevere confusione. Potremmo eliminare le variabili che abbiamo creato, utilizzando goccia fv e. Invece, lascia chiaro i dati in memoria e utilizzare nuovamente il file di dati elemapi2. Quando iniziamo nuovi esempi nei capitoli futuri, ci sarà cancellare il file di dati esistente e utilizzare nuovamente il file per ricominciare da capo. Per questo esempio di regressione multipla, ci sarà regredire la variabile dipendente, api00. su tutte le variabili predittive nel set di dati. Consente di esaminare l'output di questa analisi di regressione. Come per la regressione semplice, guardiamo al p-value del F-test per vedere se il modello generale è significativo. Con un p-valore pari a zero a quattro cifre decimali, il modello è statisticamente significativo. L'R-squared è 0,8446, il che significa che circa il 84 della variabilità dei api00 è costituito dalle variabili nel modello. In questo caso, il R-quadrati indica che circa 84 della variabilità api00 è rappresentato dal modello, anche tenendo conto del numero di variabili predittive nel modello. I coefficienti per ciascuna delle variabili indica la quantità di cambiamento si potrebbe aspettare in api00 in un cambiamento una unità il valore di tale variabile, dato che tutte le altre variabili del modello sono mantenuti costanti. Ad esempio, si consideri il ell variabile. Ci si aspetterebbe una diminuzione di 0,86 nel punteggio api00 per ogni incremento unitario di ell. presupponendo che tutte le altre variabili del modello sono mantenuti costanti. L'interpretazione di gran parte dell'uscita dalla regressione multipla è la stessa come per il semplice regressione. Abbiamo preparato una potenza ragionata che spiega più a fondo l'output di questa analisi di regressione multipla. Ci si potrebbe chiedere che cosa un cambiamento 0.86 in ell significa realmente, e come si potrebbe confrontare la forza di tale coefficiente per il coefficiente per un'altra variabile, dicono i pasti. Per affrontare questo problema, possiamo aggiungere un'opzione per il comando regresso chiamato beta. che ci darà i coefficienti di regressione standardizzati. I coefficienti beta sono utilizzati da alcuni ricercatori per confrontare la forza relativa dei vari predittori all'interno del modello. Poiché i coefficienti beta sono tutti misurati in deviazioni standard, anziché le unità delle variabili, possono essere confrontati uno con l'altro. In altre parole, i coefficienti beta sono i coefficienti che si otterrebbe se le variabili di outcome e predittive sono stati tutti trasformati punteggi standard, chiamato anche z-score, prima di eseguire la regressione. Poiché i coefficienti della colonna Beta sono tutti nella stessa unità standardizzate è possibile confrontare questi coefficienti per valutare la forza relativa di ciascuno dei predittori. In questo esempio, i pasti ha il grande coefficiente Beta, -0.66 (in valore assoluto), e acsk3 ha la più piccola Beta, 0.013. Pertanto, un aumento scarto uno standard pasti porta ad una diminuzione 0,66 deviazione standard in api00 previsto. con le altre variabili. E, un aumento di una deviazione standard in acsk3. a sua volta, porta ad un aumento di 0.013 deviazione standard a api00 previsto con le altre variabili nel modello mantenute costanti. Nell'interpretare questa uscita, si ricordi che la differenza tra i numeri elencati nella Coef. colonna e la colonna Beta è nelle unità di misura. Ad esempio, per descrivere il coefficiente di prima per ell si direbbe diminuzione delle quote di un unità in ell produrrebbe un aumento di 0,86 unità nel. quot api00 predetto Tuttavia, per il coefficiente standardizzato (Beta) si potrebbe dire, di quote quello standard diminuzione deviazione ell produrrebbe un aumento di deviazione standard nel .15 api00 previsto. quot il comando listcoef dà più ampia di uscita per quanto riguarda i coefficienti standardizzati. Non fa parte di Stata, ma è possibile scaricarlo su internet come questo. e quindi seguire le istruzioni (vedi anche Come posso utilizzare il comando findit per la ricerca di programmi e ottenere ulteriore assistenza per ulteriori informazioni sull'uso findit). Ora che abbiamo scaricato listcoef. siamo in grado di farlo funzionare in questo modo. Confrontiamo l'uscita regresso con l'uscita listcoef. Si noterà che i valori elencati nel Coef. t, e PGTT valori sono gli stessi nelle due uscite. I valori elencati nella colonna Beta dell'uscita regresso sono uguali ai valori nella colonna bStadXY di listcoef. La colonna bStdX dà la variazione unitaria di Y previsto con un un cambio deviazione standard nella colonna X. Il bStdY dà il cambio deviazione standard di Y previsto con una variazione unitaria nella colonna X. Il SDofX dà quella deviazione standard di ciascuna variabile predittore in il modello. Ad esempio, il bStdX per ell è -21,3, il che significa che un aumento di una deviazione standard in ell porterebbe ad un atteso calo del 21,3 unità in api00. Il valore bStdY per ell di -0,0060 significa che per un una unità, l'uno per cento, aumento di studenti di lingua inglese, ci si aspetterebbe una diminuzione 0.006 deviazione standard a api00. Poiché i valori bStdX sono in unità standard per le variabili predittive, è possibile utilizzare questi coefficienti per confrontare la forza relativa dei predittori come si sarebbe confrontare coefficienti Beta. La differenza è coefficienti BStdX vengono interpretati come cambiamenti nelle unità della variabile esito anziché in unità standardizzate della variabile risultato. Ad esempio, il BStdX per i pasti rispetto ell è -94 contro -21, o circa 4 volte più grande, lo stesso rapporto come il rapporto dei coefficienti Beta. Abbiamo creato un output annotato che spiega in modo più approfondito l'uscita dal listcoef. Finora, ci siamo interessati a testare una sola variabile alla volta, ad esempio guardando il coefficiente per ell e determinare se è significativa. Possiamo anche provare insiemi di variabili, utilizzando il comando di prova, per vedere se l'insieme di variabili sono significative. In primo luogo, consente di iniziare testando una singola variabile, ell. utilizzando il comando test. Se si confronta questo output con l'uscita dall'ultimo regressione che si può vedere che il risultato del test F, 16.67, è lo stesso come il quadrato del risultato del t-test nella regressione (-4,0832 16.67). Si noti che si potrebbe ottenere gli stessi risultati se si digita il seguente dato di default Stata al confronto tra il termine (s) elencato a 0. Forse un test più interessante sarebbe quello di vedere se il contributo della dimensione delle classi è significativo. Dal momento che le informazioni riguardanti la dimensione delle classi è contenuto in due variabili, acsk3 e acs46. includiamo entrambi questi con il comando test. La significativa F-test, 3,95, significa che il contributo collettivo di queste due variabili è significativa. Un modo di pensare di questo, è che vi è una differenza significativa tra un modello con acsk3 e acs46 rispetto ad un modello senza, cioè vi è una differenza significativa tra il modello quotfullquot ei modelli quotreducedquot. Infine, come parte di fare un'analisi di regressione multipla si potrebbe essere interessati a vedere le correlazioni tra le variabili nel modello di regressione. È possibile farlo con il comando correlato come illustrato di seguito. Se osserviamo le correlazioni con api00. vediamo i pasti e Ell avere le due correlazioni più forti con api00. Tali correlazioni sono negative, il che significa che il valore di una variabile scende, il valore della altra variabile tende a salire. Sapendo che queste variabili sono fortemente associati con api00. potremmo prevedere che sarebbero stati statisticamente significativi predittori nel modello di regressione. Possiamo anche utilizzare il comando pwcorr per fare correlazioni a coppie. La differenza più importante tra correlato e pwcorr è il modo in cui viene gestita dati mancanti. Con correlate. un'osservazione o un caso di caduta eventuale variabile ha un valore mancante, in altre parole, correlare utilizza listwise. chiamato anche Casewise, la cancellazione. pwcorr utilizza eliminazione pairwise, significa che l'osservazione viene eliminato solo se vi è un valore mancante per la coppia di variabili correlate. Due opzioni che è possibile utilizzare con pwcorr. ma non con correlato. sono l'opzione sig, che darà i livelli di significatività per le correlazioni e la possibilità OB, che darà il numero di osservazioni utilizzate per la correlazione. Questa soluzione non è necessario con corr come Stata elenca il numero di osservazioni in cima dell'uscita. 1.5 Variabili Trasformare All'inizio ci siamo concentrati su di screening dei dati di potenziali errori. Nel prossimo capitolo, ci concentreremo sulla diagnostica di regressione per verificare se i dati soddisfano i presupposti della regressione lineare. Qui, ci si concentrerà sulla questione della normalità. Alcuni ricercatori ritengono che la regressione lineare richiede che l'esito (dipendente) e variabili predittive essere normalmente distribuiti. Abbiamo bisogno di chiarire la questione. In realtà, sono i residui che devono essere normalmente distribuito. Infatti, i residui devono essere normale solo per i test t sia valida. La stima dei coefficienti di regressione non richiedono residui normalmente distribuiti. Dato che siamo interessati ad avere validi t-test, studieremo questioni riguardanti la normalità. Una causa comune di residui non distribuite normalmente è variabili predittive esito eo non normalmente distribuite. Quindi, cerchiamo di esplorare la distribuzione delle nostre variabili e come li si potrebbe trasformare in una forma più normale. Consente di iniziare facendo un istogramma della iscriversi variabile. che abbiamo visto in precedenza nella regressione semplice. Possiamo usare l'opzione normale per sovrapporre una curva normale su tale curva e l'opzione bin (20) per usare 20 bidoni. La distribuzione appare obliqua a destra. Si consiglia inoltre di modificare le etichette degli assi. Ad esempio, utilizziamo l'opzione xlabel () per etichettare l'asse x di sotto, etichettatura 0-1600 incrementare di 100. istogrammi sono sensibili al numero delle celle o colonne utilizzate sul display. Un'alternativa a istogrammi è la trama di densità kernel, che approssima la densità di probabilità della variabile. I grafici della densità kernel hanno il vantaggio di essere liscia e di essere indipendente dalla scelta di origine, a differenza istogrammi. Stata implementa trame densità del kernel con il comando kdensity. Non a caso, la trama kdensity indica anche che il iscriversi variabile non sembra normale. Ora lascia fare un grafico a scatole per iscriversi. utilizzando il comando scatola grafico. Nota i punti in cima alla boxplot che indichino eventuali valori anomali, cioè, questi punti di dati sono più di 1,5 (intervallo interquartile) al di sopra del 75 ° percentile. Questo boxplot conferma inoltre che iscriversi è inclinata verso destra. Ci sono altri tre tipi di grafici che sono spesso utilizzati per esaminare la distribuzione di variabili simmetria trame, le normali trame quantile e grafici di probabilità normale. Una trama simmetria rappresenta graficamente la distanza al di sopra della media per il valore i-esimo contro la distanza al di sotto della media per il valore i-esimo. Una variabile che è simmetrica avrebbe punti che giacciono sulla linea diagonale. Come ci si aspetterebbe, questa distribuzione non è simmetrica. Una trama quantile normale rappresenta graficamente i quantili di una variabile contro i quantili di una distribuzione normale (gaussiana). qnorm è sensibile non normalità prossimità delle code, e infatti vediamo notevoli deviazioni dalla normale, la linea diagonale, nelle code. Questa trama è tipica di variabili che sono fortemente inclinato verso destra. Infine, il diagramma di probabilità normale è anche utile per esaminare la distribuzione di variabili. pnorm è sensibile a scostamenti dalla normalità più vicino al centro della distribuzione. Ancora una volta, vediamo indicazioni di non normalità in iscriversi. Dopo aver concluso che iscriversi non è normalmente distribuito, come dovremmo affrontare questo problema in primo luogo, si può provare a inserire la variabile come-è in regressione, ma se vediamo problemi, che noi probabilmente saremmo, quindi possiamo cercare di trasformare iscriversi per fare più normalmente distribuito. I potenziali trasformazioni includono prendendo il registro, la radice quadrata o alzando la variabile a una potenza. Selezionando la trasformazione appropriata è un po 'di un'arte. Stata comprende la scala e comandi più felice di aiutare nel processo. Scala riporta i risultati numerici e più felice produce un display grafico. Iniziamo con scaletta e cercare la trasformazione con il più piccolo del chi-quadro. Il registro di trasformare la più piccola ha chi-quadrato. Consente di verificare questi risultati graficamente usando più felice. Questo indica anche che la trasformazione logaritmica contribuirebbe a rendere più iscriversi normalmente distribuita. Consente di utilizzare il comando di generare con la funzione di registrazione per creare la lenroll variabile che sarà il registro di Registrazione. Si noti che log in Stata vi darà il logaritmo naturale, non accedere base 10. Per ottenere logaritmo in base 10, di tipo log10 (var). Ora lascia grafico nostra nuova variabile e vedere se abbiamo normalizzato esso. Possiamo vedere che lenroll sembra abbastanza normale. Vorremmo quindi utilizzare il symplot. qnorm e pnorm comandi per aiutare a valutare se lenroll sembra normale, così come vedere impatti come lenroll i residui, che è davvero la considerazione importante. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. Stata: Data Analysis and Statistical Software Jonathan A. C. Sterne, University of Bristol Ross J. Harris, University of Bristol Roger M. Harbord, University of Bristol Thomas J. Steichen, RJRT Stata does not have a meta-analysis command. Stata users, however, have developed an excellent suite of commands for performing meta-analyses. In 2016, Stata published Meta-Analysis in Stata: An Updated Collection from the Stata Journal, Second Edition . which brought together all the Stata Journal articles about meta-analysis. This book is available for purchase at stata-pressbooksmeta-analysis-in-stata. The following meta-analysis commands are all described in Meta-Analysis in Stata: An Updated Collection from the Stata Journal, Second Edition . metan is the main Stata meta-analysis command. Its latest version allows the user to input the cell frequencies from the 2 times 2 table for each study (for binary outcomes), the mean and standard deviation in each group (for numerical outcomes), or the effect estimate and standard error from each study. It provides a comprehensive range of methods for meta-analysis, including inverse-variancendashweighted meta-analysis, and creates new variables containing the treatment effect estimate and its standard error for each study. These variables can then be used as input to other Stata meta-analysis commands. Meta-analyses may be conducted in subgroups by using the by() option. All the meta-analysis calculations available in metan are based on standard methods, an overview of which may be found in chapter 15 of Deeks, Altman, and Bradburn (2001). The version of the metan command that used Stata 7 graphics has been renamed metan7 and is downloaded as part of the metan package currently available on the SSC archive. The most recent help file for metan provides several clickable examples of using the command. labbe draws a LrsquoAbbe plot for event data (proportions of successes in the two groups). metaan performs meta-analysis on effect estimates and standard errors. Included are profile likelihood and permutation estimation, two algorithms not available in metan . 4. metacum metacum performs cumulative meta-analyses and graphs the results. metap combines p - values by using Fisherrsquos method, Edgingtonrsquos additive method, or Edgingtonrsquos normal curve method. It was released in 1999 as a version 6 command (no graphics) and was last updated in 2000. It requires the user to input a p - value for each study. 6. metareg metareg does meta-regression. It was first released in 1998 and has been updated to take account of improvements in Stata estimation facilities and recent methodological developments. It requires the user to input the treatment effect estimate and its standard error for each study. 7. metafunnel metafunnel plots funnel plots. It was released in 2004 and uses Stata 8 graphics. It requires the user to input the treatment effect estimate and its standard error for each study. 8. confunnel confunnel plots contour-enhanced funnel plots. The command has been designed to be flexible, allowing the user to add extra features to the funnel plot. 9. metabias metabias provides statistical tests for funnel plot asymmetry. It was first released in 1997, but it has been updated to provide recently proposed tests that maintain better control of the false-positive rate than those available in the original command. 10. metatrim metatrim implements the ldquotrim and fillrdquo method to adjust for publication bias in funnel plots. It requires the user to input the treatment effect estimate and its standard error for each study. 11. extfunnel extfunnel implements a new range of overlay augmentations to the funnel plot to assess the impact of a new study on an existing meta-analysis. 12. metandi and metandiplot metandi facilitates the fitting of hierarchical logistic regression models for meta-analysis of diagnostic test accuracy studies. metandiplot produces a graph of the model fit by metandi . which must be the last estimation-class command executed. 13. mvmeta and mvmetamake mvmeta performs maximum likelihood, restricted maximum likelihood, or method-of-moments estimation of random-effects multivariate meta-analysis models. mvmetamake facilitates the preparation of summary datasets from more detailed data. 14. ipdforest ipdforest is a postestimation command that uses the stored estimates of an xtmixed or xtmelogit command for multilevel linear or logistic regression, respectively. 15. ipdmetan ipdmetan performs two-stage individual participant data meta-analysis using the inverse-variance method. 16. indirect indirect performs pairwise indirect treatment comparisons. 17. network setup network setup imports data from a set of studies reporting count data (events, total number) or quantitative data (mean, standard deviation, total number) for two or more treatments. 18. network import network import imports a dataset already formatted for network meta-analysis. 19. network table network table tabulates network meta-analysis data. 20. network pattern network pattern shows which treatments are used in which studies. 21. network map network map draws a map of a network that is, it shows which treatments are directly compared against which other treatments and roughly how much information is available for each treatment and for each treatment comparison. 22. network convert network convert converts between the three formats described in the help file for network . 23. network query network query displays the current network settings. 24. network unset network unset deletes the current network settings. 25. network meta network meta defines a model to be fit: either the consistency model or the design-by-treatment interaction inconsistency model. 26. network rank network rank ranks treatments after a network meta-analysis has been fit. 27. network sidesplit network sidesplit fits the node-splitting model of Dias et al. (2010). 28. network forest network forest draws a forest plot of network meta-analysis data. 29. networkplot networkplot plots a network of interventions using nodes and edges. 30. netweight netweight calculates all direct pairwise summary effect sizes with their variances, creates the design matrix, and estimates the percentage contribution of each direct comparison to the network summary estimates and in the entire network. 31. ifplot ifplot identifies all triangular and quadratic loops in a network of interventions and estimates the respective inconsistency factors and their uncertainties. 32. netfunnel netfunnel plots a comparison-adjusted funnel plot for assessing small-study effects within a network of interventions. 33. intervalplot intervalplot plots the estimated effect sizes and their uncertainties for all pairwise comparisons in a network meta-analysis. 34. netleague netleague creates a league table showing in the off-diagonal cells the relative treatment effects for all possible pairwise comparisons estimated in a network meta-analysis. sucra gives the surface under the cumulative ranking curves percentages and mean ranks, and produces rankograms (line plots of the probabilities versus ranks) and cumulative ranking plots (line plots of the cumulative probabilities versus ranks) for all treatments in a network of interventions. 36. mdsrank mdsrank creates the squared matrix containing the pairwise relative effect sizes and plots the resulting values of the unique dimension for each treatment. 37. clusterank clusterank performs hierarchical cluster analysis to group the competing treatments into meaningful groups. glst calculates a log-linear dosendashresponse regression model using generalized least squares for trend estimation of single or multiple summarized dosendashresponse epidemiological studies. Output from this command may be useful in deriving summary effects and their standard errors for inclusion in meta-analyses of such studies. 39. metamiss metamiss performs meta-analysis with binary outcomes when some or all studies have missing data. 40. sem and gsem Describes how to fit fixed - and random-effects meta-analysis models using the sem and gsem commands, introduced in Stata 12 and 13 respectively, for structural equation modeling. 41. metacumbounds metacumbounds provides z - values, p - values, and Lan-DeMets bounds obtained from fixed - or random-effects meta-analysis. It plots the boundaries and z - values through a process. 42. metasim metasim simulates a specified number of new studies based on the estimates obtained from a preexisting meta-analysis. 43. metapow metapow implements an approach to estimating the power of a newly simulated study generated by using the program metasim . 44. metapowplot metapowplot estimates the power of an updated meta-analysis including a new study and plots each value against a range of sample sizes. The following commands are documented in the Appendix: 45. metacurve metacurve models a response as a function of a continuous covariate, optionally adjusting for other variable(s) specified by adjust() . 46. metannt metannt is intended to aid interpretation of meta-analyses of binary data by presenting intervention effect sizes in absolute terms, as the number needed to treat (NNT) and the number of events avoided (or added) per 1,000. The user inputs design parameters, and metannt uses the metan command to calculate the required statistics. This command is available as part of the metan package. 47. metaninf metaninf is a port of the metainf command to use metan as its analysis engine rather than meta . It was released in 2001 as a version 6 command using version 6 graphics and was last updated in 2004. It requires the user to provide input in the form needed by metan . midas provides statistical and graphical routines for undertaking meta-analysis of diagnostic test performance in Stata. 49. metalr metalr graphs positive and negative likelihood ratios in diagnostic tests. It can do stratified meta-analysis of individual estimates. The user must provide the effect estimates (log positive likelihood ratio and log negative likelihood ratio) and their standard errors. Commands meta and metareg are used for internal calculations. This is a version 8 command released in 2004. 50. metaparm metaparm performs meta-analyses and calculates confidence intervals and p - values for differences or ratios between parameters for different subpopulations for data stored in the parmest format. 51. metaeff metaeff is a pre-processing command for meta-analysis and a companion to metaan which calculates effect sizes and their standard errors. Note: There may be commands that appeared in the Stata Journal after the publication of Meta-Analysis in Stata: An Updated Collection from the Stata Journal, Second Edition . For a complete list of meta-analysis commands, type search meta in Stata. Deeks, J. J. D. G. Altman, and M. J. Bradburn. 2001. Statistical methods for examining heterogeneity and combining results from several studies in meta-analysis. In Systematic Reviews in Health Care: Meta-Analysis in Context, 2nd Edition . ed. M. Egger, G. Davey Smith, and D. G. Altman. London: BMJ. Dias, S. N. J. Welton, D. M. Caldwell, and A. E. Ades. 2010. Checking consistency in mixed treatment comparison meta-analysis. Statistics in Medicine 29: 932ndash944.

No comments:

Post a Comment