要理解這個部分的程式碼,請閱讀:
我們知道,從父程式到子經常的資料傳遞相對比較容易一些,但是從子程式傳遞到父程式就比較的困難。
有很多辦法實現程式互動,在php中比較方便的是 管道通訊。當然,還可以通過 socket_pair 進行通訊。
首先是伺服器為了應對每一個請求要做的事情(傳送一個url 序列,url序列用t 分割。而結束標記是 n)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
function clientHandle($msgsock, $obj) { $nbuf = ''; socket_set_block($msgsock); do { if (false === ($buf = @socket_read($msgsock, 2048, PHP_NORMAL_READ))) { $obj->error("socket_read() failed: reason: " . socket_strerror(socket_last_error($msgsock))); break; } $nbuf .= $buf; if (substr($nbuf, -1) != "\n") { continue; } $nbuf = trim($nbuf); if ($nbuf == 'quit') { break; } if ($nbuf == 'shutdown') { break; } $url = explode("\t", $nbuf); $nbuf = ''; $talkback = serialize(read_ntitle($url)); socket_write($msgsock, $talkback, strlen($talkback)); debug("write to the client\n"); break; } while (true); } |
上面程式碼比較關鍵的一個部分是 read_ntitle,這個函式實現多執行緒的讀取標題。
程式碼如下:(為每一個url fork 一個執行緒,然後開啟管道 ,讀取到的標題寫入到管道里面去,主執行緒一直的在讀取管道資料,直到所有的資料讀取完畢,最後刪除管道)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
function read_ntitle($arr) { $pipe = new Pipe("multi-read"); foreach ($arr as $k => $item) { $pids[$k] = pcntl_fork(); if(!$pids[$k]) { $pipe->open_write(); $pid = posix_getpid(); $content = base64_encode(read_title($item)); $pipe->write("$k,$content\n"); $pipe->close_write(); debug("$k: write success!\n"); exit; } } debug("read begin!\n"); $data = $pipe->read_all(); debug("read end!\n"); $pipe->rm_pipe(); return parse_data($data); } parse_data 程式碼如下,非常的簡單,就不說了。 parse_data 程式碼如下,非常的簡單,就不說了。 function parse_data($data) { $data = explode("\n", $data); $new = array(); foreach ($data as $value) { $value = explode(",", $value); if (count($value) == 2) { $value[1] = base64_decode($value[1]); $new[intval($value[0])] = $value[1]; } } ksort($new, SORT_NUMERIC); return $new; } |
上面程式碼中,還有一個函式read_title 比較有技巧。為了相容性,我沒有采用curl,而是直接採用socket 通訊。
在下載到 title 標籤後,就停止讀取內容,以節省時間。程式碼如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 |
function read_title($url) { $url_info = parse_url($url); if (!isset($url_info['host']) || !isset($url_info['scheme'])) { return false; } $host = $url_info['host']; $port = isset($url_info['port']) ? $url_info['port'] : null; $path = isset($url_info['path']) ? $url_info['path'] : "/"; if(isset($url_info['query'])) $path .= "?".$url_info['query']; if(empty($port)){ $port = 80; } if ($url_info['scheme'] == 'https'){ $port = 443; } if ($url_info['scheme'] == 'http') { $port = 80; } $out = "GET $path HTTP/1.1\r\n"; $out .= "Host: $host\r\n"; $out .= "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7)\r\n"; $out .= "Connection: Close\r\n\r\n"; $fp = fsockopen($host, $port, $errno, $errstr, 5); if ($fp == NULL) { error("get title from $url, error. $errno: $errstr \n"); return false; } fwrite($fp, $out); $content = ''; while (!feof($fp)) { $content .= fgets($fp, 1024); if (preg_match("/<title>(.*?)<\/title>/is", $content, $matches)) { fclose($fp); return encode_to_utf8($matches[1]); } } fclose($fp); return false; } function encode_to_utf8($string) { return mb_convert_encoding($string, "UTF-8", mb_detect_encoding($string, "UTF-8, GB2312, ISO-8859-1", true)); } |
這裡,我只是檢測了 三種最常見的編碼。其他的程式碼都很簡單,這些程式碼都是測試用的,如果你要做這樣一個伺服器,一定要進行優化處理。特別是,要防止一次開啟太多的程式,你要做更多的處理。
很多時候,我們抱怨php 不支援多程式,實際上,php是支援多程式的。當然,沒有那麼多的程式通訊的選項,而多程式的核心就在於程式的通訊與同步。在web開發中,這樣的多執行緒基本上是不會使用的,因為有很嚴重的效能問題。要實現比較簡單的多程式,高負載,必須藉助其擴充套件。