C++用libcurl庫進行http網路通訊程式設計

double2li發表於2014-12-12
 
一、LibCurl基本程式設計框架
libcurl是一個跨平臺的網路協議庫,支援http, https, ftp, gopher, telnet, dict, file, 和ldap 協議。libcurl同樣支援HTTPS證書授權,HTTP POST, HTTP PUT, FTP 上傳, HTTP基本表單上傳,代理,cookies,和使用者認證。想要知道更多關於libcurl的介紹,可以到官網http://curl.haxx.se/上去了解,在這裡不再詳述。
在基於LibCurl的程式裡,主要採用callback function (回撥函式)的形式完成傳輸任務,使用者在啟動傳輸前設定好各類引數和回撥函式,當滿足條件時libcurl將呼叫使用者的回撥函式實現特定功能。下面是利用libcurl完成傳輸任務的流程:
1.       呼叫curl_global_init()初始化libcurl
2.       呼叫curl_easy_init()函式得到 easy interface型指標
3.       呼叫curl_easy_setopt()設定傳輸選項
4.       根據curl_easy_setopt()設定的傳輸選項,實現回撥函式以完成使用者特定任務
5.       呼叫curl_easy_perform()函式完成傳輸任務
6.       呼叫curl_easy_cleanup()釋放記憶體
在整過過程中設定curl_easy_setopt()引數是最關鍵的,幾乎所有的libcurl程式都要使用它。
 
二、一些基本的函式
1.CURLcode curl_global_init(long flags);
描述:
這個函式只能用一次。(其實在呼叫curl_global_cleanup 函式後仍然可再用)
如果這個函式在curl_easy_init函式呼叫時還沒呼叫,它講由libcurl庫自動呼叫,所以多執行緒下最好主動呼叫該函式以防止線上程中curl_easy_init時多次呼叫。
注意:雖然libcurl是執行緒安全的,但curl_global_init是不能保證執行緒安全的,所以不要在每個執行緒中都呼叫curl_global_init,應該將該函式的呼叫放在主執行緒中。
引數:flags
CURL_GLOBAL_ALL                      //初始化所有的可能的呼叫。
CURL_GLOBAL_SSL                      //初始化支援 安全套接字層。
CURL_GLOBAL_WIN32            //初始化win32套接字型檔。
CURL_GLOBAL_NOTHING         //沒有額外的初始化。

2 void curl_global_cleanup(void);
描述:在結束libcurl使用的時候,用來對curl_global_init做的工作清理。類似於close的函式。
注意:雖然libcurl是執行緒安全的,但curl_global_cleanup是不能保證執行緒安全的,所以不要在每個執行緒中都呼叫curl_global_init,應該將該函式的呼叫放在主執行緒中。

3 char *curl_version( );
描述: 列印當前libcurl庫的版本。

4 CURL *curl_easy_init( );
描述:
curl_easy_init用來初始化一個CURL的指標(有些像返回FILE型別的指標一樣). 相應的在呼叫結束時要用curl_easy_cleanup函式清理.
一般curl_easy_init意味著一個會話的開始. 它會返回一個easy_handle(CURL*物件), 一般都用在easy系列的函式中.

5 void curl_easy_cleanup(CURL *handle);
描述:
這個呼叫用來結束一個會話.與curl_easy_init配合著用. 
引數:
CURL型別的指標.

6 CURLcode curl_easy_setopt(CURL *handle, CURLoption option, parameter);
描述: 這個函式最重要了.幾乎所有的curl 程式都要頻繁的使用它.它告訴curl庫.程式將有如何的行為. 比如要檢視一個網頁的html程式碼等.(這個函式有些像ioctl函式)引數:
1 CURL型別的指標
2 各種CURLoption型別的選項.(都在curl.h庫裡有定義,man 也可以檢視到)
3 parameter 這個引數 既可以是個函式的指標,也可以是某個物件的指標,也可以是個long型的變數.它用什麼這取決於第二個引數.
CURLoption 這個引數的取值很多.具體的可以檢視man手冊.

7 CURLcode curl_easy_perform(CURL *handle);
描述:這個函式在初始化CURL型別的指標 以及curl_easy_setopt完成後呼叫. 就像字面的意思所說perform就像是個舞臺.讓我們設定的
option 運作起來.引數:
CURL型別的指標.

三、 curl_easy_setopt函式部分選項介紹
本節主要介紹curl_easy_setopt中跟http相關的引數。該函式是curl中非常重要的函式,curl所有設定都是在該函式中完成的,該函式的設定選項眾多,注意本節的闡述的只是部分常見選項。
1.     CURLOPT_URL 
設定訪問URL

2.       CURLOPT_WRITEFUNCTION,CURLOPT_WRITEDATA
回撥函式原型為:size_t function( void *ptr, size_t size, size_t nmemb, void *stream); 函式將在libcurl接收到資料後被呼叫,因此函式多做資料儲存的功能,如處理下載檔案。CURLOPT_WRITEDATA 用於表明CURLOPT_WRITEFUNCTION函式中的stream指標的來源。
如果你沒有通過CURLOPT_WRITEFUNCTION屬性給easy handle設定回撥函式,libcurl會提供一個預設的回撥函式,它只是簡單的將接收到的資料列印到標準輸出。你也可以通過 CURLOPT_WRITEDATA屬性給預設回撥函式傳遞一個已經開啟的檔案指標,用於將資料輸出到檔案裡。

3.      CURLOPT_HEADERFUNCTION,CURLOPT_HEADERDATA
回撥函式原型為 size_t function( void *ptr, size_t size,size_t nmemb, void *stream); libcurl一旦接收到http 頭部資料後將呼叫該函式。CURLOPT_WRITEDATA 傳遞指標給libcurl,該指標表明CURLOPT_HEADERFUNCTION 函式的stream指標的來源。

4.       CURLOPT_READFUNCTION CURLOPT_READDATA
libCurl需要讀取資料傳遞給遠端主機時將呼叫CURLOPT_READFUNCTION指定的函式,函式原型是:size_t function(void *ptr, size_t size, size_t nmemb,void *stream). CURLOPT_READDATA 表明CURLOPT_READFUNCTION函式原型中的stream指標來源。

5.       CURLOPT_NOPROGRESS,CURLOPT_PROGRESSFUNCTION,CURLOPT_PROGRESSDATA
跟資料傳輸進度相關的引數。CURLOPT_PROGRESSFUNCTION 指定的函式正常情況下每秒被libcurl呼叫一次,為了使CURLOPT_PROGRESSFUNCTION被呼叫,CURLOPT_NOPROGRESS必須被設定為false,CURLOPT_PROGRESSDATA指定的引數將作為CURLOPT_PROGRESSFUNCTION指定函式的第一個引數

6.       CURLOPT_TIMEOUT,CURLOPT_CONNECTIONTIMEOUT:
CURLOPT_TIMEOUT 由於設定傳輸時間,CURLOPT_CONNECTIONTIMEOUT 設定連線等待時間

7.       CURLOPT_FOLLOWLOCATION
設定重定位URL

8.       CURLOPT_RANGE: CURLOPT_RESUME_FROM:
斷點續傳相關設定。CURLOPT_RANGE 指定char *引數傳遞給libcurl,用於指明http域的RANGE頭域,例如:
表示頭500個位元組:bytes=0-499
表示第二個500位元組:bytes=500-999
表示最後500個位元組:bytes=-500
表示500位元組以後的範圍:bytes=500-
第一個和最後一個位元組:bytes=0-0,-1
同時指定幾個範圍:bytes=500-600,601-999
CURLOPT_RESUME_FROM 傳遞一個long引數給libcurl,指定你希望開始傳遞的 偏移量。

四、 curl_easy_perform 函式說明(error 狀態碼)
該函式是完成curl_easy_setopt指定的所有選項,本節重點介紹curl_easy_perform的返回值。返回0意味一切ok,非0代表錯誤發生。主要錯誤碼說明:
1.    CURLE_OK 
    任務完成一切都好
2     CURLE_UNSUPPORTED_PROTOCOL
    不支援的協議,由URL的頭部指定
3     CURLE_COULDNT_CONNECT
    不能連線到remote 主機或者代理
4     CURLE_REMOTE_ACCESS_DENIED
    訪問被拒絕
5     CURLE_HTTP_RETURNED_ERROR
    Http返回錯誤
6     CURLE_READ_ERROR
讀本地檔案錯誤
要獲取詳細的錯誤描述字串,可以通過const char *curl_easy_strerror(CURLcode errornum ) 這個函式取得.
 

五、libcurl使用的HTTP訊息頭
    當使用libcurl傳送http請求時,它會自動新增一些http頭。我們可以通過CURLOPT_HTTPHEADER屬性手動替換、新增或刪除相應 的HTTP訊息頭。
    Host
    http1.1(大部分http1.0)版本都要求客戶端請求提供這個資訊頭。
    Pragma
    “no-cache”。表示不要緩衝資料。
    Accept
    “*/*”。表示允許接收任何型別的資料。
    Expect
    以POST的方式向HTTP伺服器提交請求時,libcurl會設定該訊息頭為”100-continue”,它要求伺服器在正式處理該請求之前,返回一 個”OK”訊息。如果POST的資料很小,libcurl可能不會設定該訊息頭。
自定義選項
    當前越來越多的協議都構建在HTTP協議之上(如:soap),這主要歸功於HTTP的可靠性,以及被廣泛使用的代理支援(可以穿透大部分防火牆)。 這些協議的使用方式與傳統HTTP可能有很大的不同。對此,libcurl作了很好的支援。
    自定義請求方式(CustomRequest)
    HTTP支援GET, HEAD或者POST提交請求。可以設定CURLOPT_CUSTOMREQUEST來設定自定義的請求方式,libcurl預設以GET方式提交請求:
    curl_easy_setopt(easy_handle, CURLOPT_CUSTOMREQUEST, “MYOWNREQUEST”); 

修改訊息頭
    HTTP協議提供了訊息頭,請求訊息頭用於告訴伺服器如何處理請求;響應訊息頭則告訴瀏覽器如何處理接收到的資料。在libcurl中,你可以自由的新增 這些訊息頭:

複製程式碼
struct curl_slist *headers=NULL; /* init to NULL is important */
headers = curl_slist_append(headers, "Hey-server-hey: how are you?");
headers = curl_slist_append(headers, "X-silly-content: yes");
/* pass our list of custom made headers */
curl_easy_setopt(easyhandle, CURLOPT_HTTPHEADER, headers);
curl_easy_perform(easyhandle); /* transfer http */
curl_slist_free_all(headers); /* free the header list */
複製程式碼

對於已經存在的訊息頭,可以重新設定它的值:

headers = curl_slist_append(headers, "Accept: Agent-007"); 
headers = curl_slist_append(headers, "Host: munged.host.line"); 

刪除訊息頭
對於一個已經存在的訊息頭,設定它的內容為空,libcurl在傳送請求時就不會同時提交該訊息頭:

headers = curl_slist_append(headers, "Accept:");

 

六、獲取http應答頭資訊

    發出http請求後,伺服器會返回應答頭資訊和應答資料,如果僅僅是列印應答頭的所有內容,則直接可以通過curl_easy_setopt(curl, CURLOPT_HEADERFUNCTION, 列印函式)的方式來完成,這裡需要獲取的是應答頭中特定的資訊,比如應答碼、cookies列表等,則需要通過下面這個函式:
    CURLcode curl_easy_getinfo(CURL *curl, CURLINFO info, … ); 
    info引數就是我們需要獲取的內容,下面是一些引數值:
    1.CURLINFO_RESPONSE_CODE
    獲取應答碼
    2.CURLINFO_HEADER_SIZE
    頭大小
    3.CURLINFO_COOKIELIST
    cookies列表

    除了獲取應答資訊外,這個函式還能獲取curl的一些內部資訊,如請求時間、連線時間等等。

    更多的引數可以參考API文件。

 

七、多執行緒問題
    首先一個基本原則就是:絕對不應該線上程之間共享同一個libcurl handle(CURL *物件),不管是easy handle還是multi handle(本文只介紹easy_handle)。一個執行緒每次只能使用一個handle。
    libcurl是執行緒安全的,但有兩點例外:訊號(signals)和SSL/TLS handler。 訊號用於超時失效名字解析(timing out name resolves)。libcurl依賴其他的庫來支援SSL/STL,所以用多執行緒的方式訪問HTTPS或FTPS的URL時,應該滿足這些庫對多執行緒 操作的一些要求。詳細可以參考:
    OpenSSL: http://www.openssl.org/docs/crypto/threads.html#DESCRIPTION

    GnuTLS: http://www.gnu.org/software/gnutls/manual/html_node/Multi_002dthreaded-applications.html

    NSS: 宣稱是多執行緒安全的。

八、什麼時候libcurl無法正常工作
    傳輸失敗總是有原因的。你可能錯誤的設定了一些libcurl的屬性或者沒有正確的理解某些屬性的含義,或者是遠端主機返回一些無法被正確解析的內容。
    這裡有一個黃金法則來處理這些問題:將CURLOPT_VERBOSE屬性設定為1,libcurl會輸出通訊過程中的一些細節。如果使用的是http協 議,請求頭/響應頭也會被輸出。將CURLOPT_HEADER設為1,這些頭資訊將出現在訊息的內容中。
    當然不可否認的是,libcurl還存在bug。
    如果你對相關的協議瞭解越多,在使用libcurl時,就越不容易犯錯。

九、關於密碼
    客戶端向伺服器傳送請求時,許多協議都要求提供使用者名稱與密碼。libcurl提供了多種方式來設定它們。
    一些協議支援在URL中直接指定使用者名稱和密碼,類似於: protocol://user:password@example.com/path/。libcurl能正確的識別這種URL中的使用者名稱與密碼並執行 相應的操作。如果你提供的使用者名稱和密碼中有特殊字元,首先應該對其進行URL編碼。
    也可以通過CURLOPT_USERPWD屬性來設定使用者名稱與密碼。引數是格式如 “user:password ”的字串:
    curl_easy_setopt(easy_handle, CURLOPT_USERPWD, “user_name:password”)
    有時候在訪問代理伺服器的時候,可能時時要求提供使用者名稱和密碼進行使用者身份驗證。這種情況下,libcurl提供了另 一個屬性CURLOPT_PROXYUSERPWD:
    curl_easy_setopt(easy_handle, CURLOPT_PROXYUSERPWD, “user_name:password”); 
    在UNIX平臺下,訪問FTP的使用者名稱和密碼可能會被儲存在$HOME/.netrc檔案中。libcurl支援直接從這個檔案中獲取使用者名稱與密碼:
    curl_easy_setopt(easy_handle, CURLOPT_NETRC, 1L); 
    在使用SSL時,可能需要提供一個私鑰用於資料安全傳輸,通過CURLOPT_KEYPASSWD來設定私鑰:
    curl_easy_setopt(easy_handle, CURLOPT_KEYPASSWD, “keypassword”);

十、HTTP驗證
    在使用HTTP協議時,客戶端有很多種方式向伺服器提供驗證資訊。預設的 HTTP驗證方法是”Basic”,它將使用者名稱與密碼以明文的方式、經Base64編碼後儲存在HTTP請求頭中,發往伺服器。當然這不太安全。
    當前版本的libcurl支援的驗證方法有:basic, Digest, NTLM, Negotiate, GSS-Negotiate and SPNEGO。(譯者感嘆:搞Web這麼多年,盡然不知道這些Http的驗證方式,實在慚愧。)可以通過CURLOPT_HTTPAUTH屬性來設定具體 的驗證方式:
    curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST);
    向代理伺服器傳送驗證資訊時,可以通過CURLOPT_PROXYAUTH設定驗證方式:
    curl_easy_setopt(easy_handle, CURLOPT_PROXYAUTH, CURLAUTH_NTLM);
    也可以同時設定多種驗證方式(通過按位與), 使用‘CURLAUTH_ANY‘將允許libcurl可以選擇任何它所支援的驗證方式。通過CURLOPT_HTTPAUTH或 CURLOPT_PROXYAUTH屬性設定的多種驗證方式,libcurl會在執行時選擇一種它認為是最好的方式與伺服器通訊:
    curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST|CURLAUTH_BASIC); 
    // curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_ANY);

 
ps:執行過程中可能會遇到各種問題,譬如說找不到.dll,無法打檔案等,請自行google之…..
    來源:http://www.cnblogs.com/moodlxs/archive/2012/10/15/2724318.html
  http://dewei.iteye.com/blog/1572016


相關文章