應用STATA做統計分析 更新至STATA 12(原書第8版)

qinghuawenkang發表於2018-10-25

Stata 是用於 Windows、 Mac 以及 Unix 作業系統上的一種功能完備的統計軟體包。它
的特點包括易操作、速度快,還包括一整套預先編好的分析與資料管理功能,同時也允許
使用者根據需要來建立自己的程式、新增更多功能。大部分操作既可以透過下拉選單系統來
完成,也可以更直接地透過鍵入命令來完成。初學者可以在選單的幫助下學習使用 Stata,
任何人在應用自己所不熟悉的程式時都可以由此獲得幫助。 Stata 的命令有很強的一致性和
直觀意義,可以使有經驗的使用者更高效地工作,這一特點還使得對更復雜或需要多次重複
的任務進行程式設計變得十分容易。如有必要, 在應用 Stata 時還可以混用選單方法和命令方法。
它還提供廣泛的幫助、查詢和連結功能,輕輕鬆鬆便能完成像查詢某一命令語法或其他信
息這類的事情。本書即為補充這些特徵而著。
本書先提供一些介紹性資訊,然後我們從一段 Stata 應用示範來讓你領略資料分析過
程,以及怎樣使用分析結果。後續各章將做更詳細的解釋。然而,即使沒有任何解釋,你
也可以看到有關命令多麼簡單明瞭:開啟資料檔案 filename 的命令就是 use filename,取得
概要統計的命令是 summarize,得到相關矩陣的命令是 correlate,如此等等。或者,也可
以透過 Data 或 Statistics 選單上的選擇來取得同樣的結果。
有各種各樣的資源來幫助使用者學習 Stata,以解決任何難度級別的問題。這些資源並不
只是來自於 Stata 公司,而且也來自於活躍的 Stata 使用者群體。本章的一部分內容會介紹一
些主要資源:包括 Stata 的線上幫助和印刷版文件,以及尋求技術幫助時應該給哪裡寫信或
發電子郵件,提供包括軟體更新與常見問題解答等諸多服務的 Stata 網址()、互
聯網論壇 Statalist Internet 以及經審閱的《Stata 期刊》 (Stata Journal)。
1.1 本書體例的說明
本書採用幾種不同的印刷體例來標誌有關文字的型別意義:
● 使用者鍵入的命令以粗體顯示。當給出完整的命令列時,將以一個英文句點作為起始
點,這與在 Stata 結果視窗(Results window)或日誌(輸出)檔案中見到的一樣:
. correlate extent area volume temp
Stata 軟體與 Stata 的資源
● 命令中的變數或檔名均為斜體,以強調它們是隨意指定的,而並不是該命令的固
定部分。
● 本書一般行文中涉及變數或檔名時也將以斜體顯示, 以示它們與普通文字內容的
區別。
● Stata 選單上的項將以 Arial 體表示,以“ ”間隔表示隨後的選項。比如,我們可
以透過選擇 File Open 來開啟已存在的資料集,然後找到並單擊這一特定資料集
的檔名。注意,一些常見選單的動作也可以透過 Stata 主選單工具條中的文字選
項來完成:
File Edit Data Graphics Statistics User Window Help
或者單擊這些文字下面相應的圖示來完成。比如,選擇 File Open 與單擊最左側的開
啟資料夾小圖示 的功能完全一樣。使用者還可以直接鍵入以下命令來實現同樣的操作:
. use filename
於是,我們呈現名為 extent 的一個變數的概要統計指標的計算結果如下:
. summarize extent
這些體例只適用於本書,而不適用於 Stata 程式本身。 Stata 可以顯示不同的螢幕字型,
但是它在命令中並不使用斜體。一旦 Stata 的日誌檔案被匯入文書處理軟體,或者已將統計
結果表複製並貼上到文書處理軟體, 就應該將其格式改為 Courier 字型的 10 號或更小字號,
這樣才能將各列正確對應。
對於命令和變數名, Stata 嚴格區分大小寫。所以 summarize 是一個命令,而 Summarize
和 SUMMARIZE 就不是。 Extent 和 extent 將是兩個不同的變數。
1.2 一個 Stata 操作的例子
作為對執行中 Stata 的一個預覽,本節將介紹如何開啟和分析一個以往建立的資料文
件,名為 Arctic9.dta。這一小規模時間序列涵蓋了衛星時代(1979 年到 2011 年)對 9 月份北
冰洋冰情的觀測。資料取自三個不同來源(見有關資料來源的附錄)。變數 extent 是對每年 9
月份海冰密集度不低於 15%的北半球海域的衛星測量。 Area 數字略小於 extent,表示海冰
本身的面積。另一個變數 tempN 記錄了北緯 64°以北平均年度表面氣溫。氣溫被表達為以
攝氏度衡量的異常,即與 1951 年到 1980 年平均氣溫的偏差。我們有 33 個觀測(年份)和 8
個變數。
如果我們想記錄下這段工作,最好的方法是在工作開始時先開啟一個日誌檔案。日誌
檔案可以存放命令和統計結果表,但是不能存放圖形。要建立一個日誌檔案,先從頂部菜
單欄中選擇 File Log Begin…,併為這個輸出的日誌檔案指定檔名和資料夾。也可以
透過在頂部選單工具條上選擇 File Log Begin,或者直接鍵入以下命令來開啟一個日誌
檔案:
. log using monday1
有多種方式做這些事情,這在 Stata 中是常見的。每一種都有自己的優點,各自適合於
不同場合或不同使用者的偏好。
日誌檔案既能以一種特殊的 Stata 格式(.smcl)來建立,也可以採用常用的文字或 ASCII
格式(.log)。 .smcl(Stata markup and control language)檔案在 Stata 中能很好地瀏覽或列印。其
中還可以包括超連結以方便理解命令或錯誤提示。 .log(文字)檔案則缺少此類格式化,但是
如果使用者將來把這些輸出插入其他文件編輯器或做進一步編輯,就會很方便。使用者在選擇
了想要的日誌檔案型別後,便可以單擊 Save。在這一節中,我們將建立一個.smcl 格式的日
志檔案,名為 monday1.smcl。
這裡將分析一個現有的 Stata 格式的資料檔案 Arctic9.dta。要開啟這個資料檔案,我們
仍然有好幾種方式:
● 從頂部選單欄中選擇 File Open Arctic9.dta;
● 單擊 Arctic9.dta;或者
鍵入命令 use Arctic9。
Windows 預設設定下, Stata 會在使用者的文件目錄中尋找資料檔案。如果想要的檔案在
其他資料夾中,我們可以在 use 命令中指定它的位置:
. use C:\books\sws_12\data\Arctic9
或者用 cd(代表 change directory,即改變子目錄)命令來更改本次工作的預設資料夾:
. cd C:\books\sws_12\data\
. use Arctic9
或者從選單中選擇 File Change Working Directory…。通常,開啟檔案的最簡單方法
是選擇 File Open,然後按常規方式瀏覽資料夾。
如果想要看當前記憶體中資料集的簡要描述,鍵入:
. describe

許多 Stata 命令都可以簡化為它們的前幾個字母。比如,我們可將 describe 命令簡化為
僅有一個字母 d。如果要使用選單,那麼選擇 Data Describe data Describe data in
memory (OK)也能得到同樣的輸出表格。
這一資料集只有 33 個觀測案例和 8 個變數,所以鍵入 list 就能列出相應內容(或者僅鍵
入小寫字母 l 也行;或者選擇 Data Describe data List data (OK))。此處為節省篇幅,
我們鍵入 list in 1/10 只列出前 10 年:
. list in 1/10
可從均值、標準差、最小值以及最大值入手來進行分析。直接鍵入 summarize 或 su;
或者從下拉選單中選擇 Statistics Summaries, tables, and tests Summary and descriptive
statistics Summary statistics (OK):
. summarize
若想將到目前為止得到的結果列印出來,先單擊結果視窗,然後單擊 圖示,或者從
選單中選擇 File Print Results。
如果想將一個表、一些命令或結果視窗的其他資訊複製到文書處理軟體中,首先用鼠
標選擇想要的那些結果,點選滑鼠右鍵,然後選擇滑鼠選單中的 Copy Text。轉到你的文字
處理軟體中,在適當插入點點選滑鼠右鍵,然後點選 Paste,或者點選文書處理軟體工具條
上的貼上圖示也行。大多數情形中的最後一步都是將貼上過來的文字更改成諸如 Courier
等固定寬度的字型。
北極的海冰範圍、面積和容積應當與年均氣溫有關,不僅因為更溫暖的空氣有助於融
冰,而且因為無冰海洋的表面氣溫會比有冰的更高。我們透過鍵入如下後接變數列表的
correlate 命令可以得到它們之間的相關關係。
正如所預期的, 9 月份海冰的 extent、 area 和 volume 都具有強的正相關。它們與年均
氣溫之間的相關是負的:氣溫越高,冰越少(或者反之)。同樣的相關矩陣可透過點選選單
Statistics Summaries, tables, and tests Summary and descriptive statistics Correlation
and covariance,然後選擇存在相關性的變數來得到。儘管使用選單選擇通常都很簡單明瞭,
但是你能看到在描述它們時卻比使用簡單文字命令更復雜。因此,後面我們將主要使用命
令,只在少許場合提及選單選用。對於選單的探究、搞清它們如何使用才能完成同樣的任務,
將留給讀者自己來完成。出於同樣的原因, Stata 參考手冊也是採取以命令為基礎的方式。
因此,海冰範圍、面積、容積與溫度都是有關的。它們如何隨時間推移而變動呢?圖
1.1 畫出了 extent 對 year 的標繪圖,由 graph twoway connected 命令得到。此命令中第一
個命名的變數 extent 定義縱軸或 y 軸,最後命名的變數 year 定義橫軸或 x 軸。我們看到了
一種不規則的陡峭下行態勢,由於 9 月份海冰範圍在這一時期減少了超過三分之一。
. graph twoway connect extent year
4 5 6 7 8
Sea ice extent, million km^2
1980 1990 2000 2010
Year

圖 1.1
要列印出此圖, 首先轉到圖形視窗(Graph window), 然後點選該視窗中的列印圖示 或
者選擇 File Print。若要將此圖直接複製到文書處理軟體或其他檔案中,右鍵點選這一圖
形並選擇 Copy Graph,再轉到你的文書處理軟體視窗,定位插入點後,選擇一種適當的粘
貼方式,比如 Edit Paste、 Edit Paste Special(Metafile)或直接點選貼上圖示(不同的文字
年份
每百萬平方公里的海冰範圍
處理軟體有不同的處理方式)。
如果需要將此圖存起來將來再用,可以右鍵點選並選擇 Save Graph,或點選圖形視窗
中的圖示 ,或選擇圖形視窗頂部選單欄上的 File Save As。在 Save As Type 子選單可以
選擇儲存為幾種不同的檔案格式。在 Windows 系統中,這些選項包括:
● Stata graph(*.gph)(一種“活”的圖形,包括足夠的資訊供 Stata 來編輯)
● As-is graph(*.gph)(一種更緊湊的 Stata 圖形格式)
● Windows Metafile(*.wmf)
● Enhanced Metafile(*.emf)
● Portable Network Graphics(*.png)
● TIFF(*.tif)
● PostScript(*.ps)
● Encapsulated PostScript with or without TIFF preview(*.eps)
● Portable Document File(*.pdf)
Mac 或 Linux 等其他作業系統提供圖形檔案格式的不同選擇。不管我們需要哪種圖形
格式,都值得同時再以活的.gph 格式多存一份得到的圖形。這種活的.gph 格式圖形在後續
還可以用 graph use 或 graph combine 命令來重新開啟、合併、重新著色或重新設定格式,
或者使用圖形編輯器(Graph Editor)加以編輯(參見第 3 章)。
透過以上所有分析,日誌檔案 monday1.smcl 中已經存放了我們的結果。查閱該檔案以
看看我們曾經做了些什麼的一個簡單方法,就是在其自己的瀏覽器視窗(Viewer window)中
選擇以下選單來開啟這一檔案: File Log View OK。
我們可以透過點選日誌檔案瀏覽器視窗頂部一欄上的 圖示來列印此日誌檔案。日誌
檔案將會在一段 Stata 操作完成後自行關閉,也可以透過選擇 Close log file、鍵入命令
log close 或用下列指令要求提前關閉: File Log Close。
一旦關閉,檔案 monday1.smcl 在隨後的 Stata 操作期間還可以透過 File log View
或 圖示來檢視。為了建立一個能容易地被你的文書處理軟體開啟的輸出檔案,可以鍵入
以下命令,將日誌檔案由.smcl 格式(Stata 格式)轉換為.log 格式(標準 ASCII 文字格式
)
. translate monday1.smcl monday1.log
或者,一開始就以.log 格式而不是.smcl 格式來建立檔案。也可以任意次地臨時開啟和
結束日誌檔案:
● File Log Suspend
● File Log Resume
Stata 主圖示選單欄上的 log 圖示 也可執行所有這些任務。
1.3 Stata 的檔案管理與幫助檔案
Stata 第 12 版的整套文件一共 19 卷: 一本較薄的《初學手冊》(比如, Getting Started with
Stata for Windows),一本更全面的《使用者指南》 (User’s Guide), 4 卷本的《基礎參考手冊》
(Base Reference Manual),還有分別針對資料管理、製圖、縱貫和皮膚資料、矩陣(Mata)編
程、多重填補、多元統計、程式設計、結構方程建模、調查資料、存活分析和流行病學梯度表
以及時間序列分析的參考手冊。《初學手冊》只是幫助使用者做最基本的安裝、視窗管理、數
據輸入、列印等方面的工作。《使用者指南》是對一般問題的更廣泛討論,包括資源與問題解
決。新使用者尤其要注意的是《使用者指南》中的一節:“所有人都應該知道的命令(Commands
everyone should know)”。《基礎參考手冊》按字母順序列出了所有 Stata 命令。每一條命令
都包括了完整的命令語法、所有可用選項的描述、例子、有關公式和基本原理的技術說明,
以及其他參考文獻。資料管理、製圖、皮膚資料等在一般參考文獻中已經涉及,但是更復
雜的話題是在它們自己的專題手冊中才提供更具體的處理方法以及例子。還有一本《快速
參考與索引》 (Quick Reference and Index),提供了全部文件的完整清單。儘管紙質手冊可充
實書架,不過,透過 Help PDF Documentation,或者透過點選鍵入 help 後接具體的命令
名稱返回的連結,在 Stata 中任何時候都可以獲取完整的 PDF 幫助文件。
當我們在操作 Stata 時,很容易取得與手冊相連的線上幫助。從頂部選單欄選擇 Help
會出現供進一步選擇的下拉選單,包括對特定命令的幫助、最新更新、線上更新、《Stata
期刊》 (Stata Journal)和使用者編寫的程式以及連線 Stata 的網址()。選擇 Search
可以對 Stata 的說明文件、網路資源或這兩者進行關鍵詞搜尋。作為替代方法,選擇
Contents(或鍵入 help 命令)允許我們按類別查詢如何做事。 help 命令在與某個命令名一同
使用時是特別有幫助的。比如,鍵入 help correlate 命令將使有關幫助資訊顯示在瀏覽器窗
口(Viewer window)中。與參考手冊一樣,該螢幕幫助也提供命令語法說明以及完整的選項
清單。它還包括了一些例子,但常常不太具體,而且不提供手冊中的那些技術討論。但是,
螢幕幫助相比手冊也有一些優點。瀏覽器能夠在說明文件中或 Stata 網站上搜尋關鍵詞。超
連結可以使你直接找到有關條目。螢幕幫助還包括一些有關最近更新的資料,或者你還可
以從 Stata 網址或其他使用者網址下載一些非官方的 Stata 程式。
1.4 搜尋資訊
選擇 Help Search Search documentation and FAQs,可提供一種直接方式來對 Stata
說明文件或網站的 FAQs(Frequently Asked Questions, 常見問題解答)和其他頁面中的資訊進
行搜尋。或者,我們可以對網路資源進行搜尋,包括《Stata 期刊》。瀏覽器視窗中的搜尋
結果包含指向進一步資訊或原始引用的可點選超連結。
search 命令可以做類似的事情。快速 search 命令的一個專門用途是在某些場合下提供
更多資訊, 比如由於我們的命令沒有被成功執行而導致得到的是含義不明的 Stata 錯誤提示
資訊。比如, table 是一個 Stata 命令,但它需要與我們確切想要呈現在表格中的內容有關
的資訊。如果我們錯誤地僅鍵入 table, Stata 會給出錯誤資訊和具有隱含意義的“返回碼
(return code)” r(100):

點選此錯誤資訊中的返回碼 r(100)會給出更進一步的說明。我們也可以透過鍵入 search
rc 100 找到這一說明。鍵入 help search 檢視有關該命令的更多資訊。
1.5 Stata 公司
Stata 公司的郵寄地址是:
電話號碼也包括易記的 800 號碼:
電話: 1-800-782-8272 (或 1-800-STATAPC)美國
傳真: 1-800-248-8272 加拿大
傳真: 1-979-696-4600 其他地區
傳真: 1-979-696-4601
要搜尋有關定購、許可證和更新方面的資訊,可以透過下列電子郵箱與 Stata 公司聯絡:
service@stata.com
或者訪問他們的網站:
http://
Stata 出版社也有其自己的網站,提供關於 Stata 出版物的資訊,包括例題所用的資料。
網址為:

前面提到的《Stata 期刑》也已成為一個重要的資源:

Stata 的主站 提供了廣泛的使用者資源,包括詳細描述 Stata 產品的頁面、
如何訂購 Stata 以及如下所述的各種使用者支援:
FAQs——常見問題解答。如果你有什麼困擾,在手冊中又找不到答案,那麼就可以查
查這裡。也許它就是一個 FAQ。這裡的問答涉及面很廣,既有很基礎的問題,比如“如何
將其他軟體檔案轉換為 Stata 格式的資料檔案”;也有更技術性的問題,比如“如何在完全
最大似然估計中使用 heckman 命令來限制 rho 為 ”。
Updates ——主要版本中的線上更新免費對已註冊 Stata 使用者提供。它們提供了一種簡
捷的方式來獲取適用於你當前版本的最新改進、錯誤修復等。不必登入網站,使用者可以直
接在 Stata 中查詢是否有適用的更新,並透過以下命令來啟動更新過程:
. update query
Technical support ——技術支援可以透過向以下地址傳送電子郵件獲取:
tech-support@stata.com
反饋往往很迅速且很有幫助。儘管如此,但在寫信尋求技術幫助之前,還是應核實一
下你的問題是不是 FAQ。
Training ——報名參加 Stata 導論、 Stata 程式設計導論或高階 Stata 程式設計等精選話題的網上
課程。
Stata News ——Stata 新聞包括軟體特徵、當前網上課程、《Stata 期刊》的新問題以及
其他話題。
Publications ——與《Stata 期刊》、說明文件和手冊有關資訊的連結,銷售與 Stata 和其
他最新的統計推論有關的書籍的書店,以及針對寫作關於 Stata 新書人士的 Stata 作者支援
專案。接下來的兩節會更多地談到《Stata 期刊》和 Stata 圖書。
Stata 網站開闢有 Stata 部落格:
http://blog.stata.com/
社交媒體的使用者也許發現在 Twitter()上關注 Stata 很有趣且長見識,或
者會在 Facebook()上喜歡上 Stata。
1.6 《Stata 期刊》
從 1991 年至 2001 年,稱為 Stata Technical Bulletin(簡稱 STB)的雙月刊服務於釋出新
的命令和 Stata 更新,其中既有使用者撰寫的,也有正式渠道釋出的。 STB 上的文章累積起
來,每年都出版一本書,名為 Stata Technical Bulletin Reprints,這些書可以從 Stata 公司直
接訂購。隨著網路的發展,使用者之間的即時交流成為可能。程式檔案能從遙遠的資源地輕
易下載得到。雙月刊印的期刊和磁碟對於使用者交流或釋出更新與使用者撰寫的程式而言,都
已經不再是最好的途徑了。為適應變化了的世界, STB 也必須有新發展。
於是,《Stata 期刊》開始發行,以迎接挑戰,滿足 Stata 日益擴大的使用者群。像以前的
STB 一樣,《Stata 期刊》仍包括使用者描述研製新命令的文章,也包括 Stata 公司僱員編制的
非正式命令。但是,釋出新命令並不是它的首要關注點。《Stata 期刊》還包括帶索引的統計
學註釋文章、書評、 Stata 使用小竅門以及許多有趣的欄目,比如由 Nicholas J. Cox 主持的
“話說 Stata” (Speaking Stata),討論如何更有效率地使用 Stata 程式語言。《Stata 期刊》既為
初學者服務也為老使用者服務。比如,以下為 2012 年 6 月期的目錄。

《Stata 期刊》每季度發行。可以透過訪問 訂購。
歸案列出了可以單獨訂購的往期目錄,且三年前或更早的文章可免費下載。關於其歷史性
意義, Stata 發行 20 週年紀念之際刊發的特刊(5(1), 2005)包含了若干篇介紹 Stata 早期發展
的論文和一篇介紹第一本 Stata 書籍的論文,即“《應用 Stata 做統計分析》的簡史”。
1.7 應用 Stata 的圖書
除了 Stata 自己的參考手冊以外, 描述 Stata 或使用 Stata 來示範分析技術的書目越來越
多。這些書中包括一般性介紹;學科應用,如社會科學、生物統計或經濟計量;以及有關
調查分析、實驗資料、分類因變數以及其他學科的專門著述。
Stata 網站的 Bookstore 頁面提供了最新的書目清單,並附有內容描述:
http:///bookstore/
這個線上書店提供了一個瞭解和訂購不同出版商發行的 Stata 相關圖書的好地方。 

購買地址:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26421423/viewspace-2217462/,如需轉載,請註明出處,否則將追究法律責任。

相關文章