一次Zookeeper 擴充套件之殤
一、背景
基於公司發展硬性需求,生產VM伺服器要統一遷移到ZStack 虛擬化伺服器。檢查自己專案使用的伺服器,其中zookeeper叢集中招,所以需要進行遷移。
二、遷移計劃
為了使遷移不對業務產生影響,所以最好是採用
擴容
->
縮容
的方式進行。
說明: 1.原生產叢集為VM-1,VM-2,VM-3組成一個3節點的ZK叢集; 2.對該叢集擴容,增加至6節點(新增ZS-1,ZS-2,ZS-3),進行資料同步完成; 3.進行縮容,下掉原先來的三個節點(VM-1,VM-2,VM-3); 4.替換nginx解析地址。 OK! 目標很明確,過程也很清晰,然後開幹。
三、步驟 (過程已在測試環境驗證無問題):
-
對新增的三臺伺服器進行zk環境配置,和老叢集配置一樣即可,最好使用同一版本(版主使用的是3.4.6);
-
對老節點的zoo.cfg 增加新叢集的地址(逐一增加),然後對新增加節點逐一重啟。
四、問題
-
ZS-1
啟動成功,zkServer.sh status 報錯,用zkServer.sh status檢視,反饋如下異常:
[root@localhost bin]# ./zkServer.sh status ZooKeeper JMX enabled by default Using config: /usr/zookeeper/zookeeper-3.4.6/bin/../conf/zoo.cfg Error contacting service. It is probably not running.
-
此時檢視資料,資料同步正常
ZS-1 資料同步正常,但是無法檢視節點的狀態資訊;
-
懷疑是因為老節點沒有重啟的原因;此時去檢視原叢集節點資訊,發現原叢集節點狀態異常。經排查定位,原叢集的狀態一直處於異常狀態。
-
初步定位原因可能是原叢集的選舉存在異常,導致新節點無法正常納入,繼續排查。
-
恢復叢集初始狀態,如果叢集節點的狀態一直沒法正常檢視。OK 繼續定位...
五、排查過程
以下方法來自於網路:
可能有以下幾個原因:
第一、zoo.cfg檔案配置:dataLogDir指定的目錄未被建立。
1.zoo.cfg [root@SIA-215 conf]# cat zoo.cfg ... dataDir=/app/zookeeperdata/data dataLogDir=/app/zookeeperdata/log ... 2.路徑 [root@SIA-215 conf]# cd /app/zookeeperdata/ [root@SIA-215 zookeeperdata]# ll total 8 drwxr-xr-x 3 root root 4096 Apr 23 19:59 data drwxr-xr-x 3 root root 4096 Aug 29 2015 log
經排查 排除該因素。
第二、myid檔案中的整數格式不對,或者與zoo.cfg中的server整數不對應。
[root@SIA-215 data]# cd /app/zookeeperdata/data [root@SIA-215 data]# cat myid 2[root@SIA-215 data]#
定位排查後排除不是該原因。
第三、防火牆未關閉。
使用service iptables stop 關閉防火牆; 使用service iptables status確認; 使用chkconfig iptables off禁用防火牆。
確認防火牆是關閉的。
[root@localhost ~]# service iptables status iptables: Firewall is not running. 確認防火牆是關閉的
第四、埠被佔用。
[root@localhost bin]# netstat -tunlp | grep 2181 tcp 0 0 :::12181 :::* LISTEN 30035/java tcp 0 0 :::22181 :::* LISTEN 30307/java 確認埠沒有被佔用
第五、zoo.cfg檔案中主機名出錯。
經測試環境測試,主機名正確,多域名解析也正常,不存在此問題
第六、hosts檔案中,本機的主機名有兩個對應,只需保留主機名和ip地址的對映。
經測試環境測試,主機名正確,多域名解析也正常,不存在此問題 排除。
第七、zkServer.sh裡的nc命令有問題。
可能是機器上沒有安裝nc命令,還有種說法是在zkServer.sh裡找到這句: STAT=`echo stat | nc localhost $(grep clientPort “$ZOOCFG” | sed -e ‘s/.*=//’) 2> /dev/null| grep Mode` 在nc與localhost之間加上 -q 1 (是數字1而不是字母l) zookeeper版本是3.4.6,zkServer.sh里根本沒有這一句(獲取狀態的語句沒有用nc命令) # -q is necessary on some versions of linux where nc returns too quickly, and no stat result is output clientPortAddress=`grep "^[[:space:]]*clientPortAddress[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'` if ! [ $clientPortAddress ] then clientPortAddress="localhost" fi clientPort=`grep "^[[:space:]]*clientPort[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'` STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \ -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \ $clientPortAddress $clientPort srvr 2> /dev/null \ | grep Mode` if [ "x$STAT" = "x" ] then echo "Error contacting service. It is probably not running." exit 1 else echo $STAT exit 0 fi ;;
六、以下是自己排查的方式:
目前現象老叢集資料同步正常,也能進行leader選舉(從日誌獲取),但是無法檢視節點狀態,同異常資訊;進行叢集擴容,資料不能同步。
解決方法:
1、嘗試進行foreground 模式啟動,選擇一臺非主節點進行重啟,可以前臺檢視啟動日誌。
zkserver.sh start-foreground 節點啟動正常,無異常輸出。
2、檢視shell指令碼:分析zkServer.sh。
- "Error contacting service. It is probably not running." 這塊日誌出現以下指令碼中。
STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \ -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \ $clientPortAddress $clientPort srvr 2> /dev/null \ | grep Mode` if [ "x$STAT" = "x" ] then echo "Error contacting service. It is probably not running." exit 1 else echo $STAT exit 0 fi ;;
-
擷取其中一部分指令碼內容:我們可以初步定為應該是
$STAT
獲取存在異常 如果STAT變數為空,則會顯示Error contacting service. It is probably not running.: OK,那就分析下這個$STAT
到底是什麼鬼?
if [ “x$STAT” = “x” ] then echo “Error contacting service. It is probably not running.” exit 1 else echo $STAT exit 0 fi
3、嘗試用shell的debug模式 看下執行過程:
- 擷取片段執行日誌如下 :果然STAT變數確實為空,導致輸出Error contacting service. It is probably not running.並且退出。
++ grep '^[[:space:]]*clientPort[^[:alpha:]]' /app/zookeeper-3.4.6/bin/../conf/zoo.cfg + clientPort=5181 ++ grep Mode ++ /opt/jdk1.8.0_131/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp '/app/zookeeper-3.4.6/bin/../build/classes:/app/zookeeper-3.4.6/bin/../build/lib/*.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-log4j12-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-api-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/netty-3.7.0.Final.jar:/app/zookeeper-3.4.6/bin/../lib/log4j-1.2.16.jar:/app/zookeeper-3.4.6/bin/../lib/jline-0.9.94.jar:/app/zookeeper-3.4.6/bin/../zookeeper-3.4.6.jar:/app/zookeeper-3.4.6/bin/../src/java/lib/*.jar:/app/zookeeper-3.4.6/bin/../conf:.:/opt/jdk1.8.0_131/lib/dt.jar:/opt/jdk1.8.0_131/lib/tools.jar' org.apache.zookeeper.client.FourLetterWordMain localhost 5181 srvr + STAT= + ‘[‘ x = x ‘]’ + echo ‘Error contacting service. It is probably not running.’ Error contacting service. It is probably not running. + exit 1
4、修改shell指令碼:分析zkServer.sh 在指令碼總增加輸出STAT 內容,這次我們不進行過濾。
STAT1=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \ -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \ $clientPortAddress $clientPort srvr 2> test.log \ ` echo "$STAT1"
- 最好的方式是copy一個新指令碼,以免汙染原本的指令碼。我是這麼做的;然後執行該指令碼。
[root@localhost bin]# ./zkServer.sh status ZooKeeper JMX enabled by default Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo.cfg Error contacting service. It is probably not running.
- 然後檢視生成的test.log 檔案:果然存在異常內容。
in thread “main” java.lang.NumberFormatException: For input string: “2181 at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65) at java.lang.Integer.parseInt(Integer.java:492) at java.lang.Integer.parseInt(Integer.java:527) at org.apache.zookeeper.client.FourLetterWordMain.main(FourLetterWordMain.java:76)
- 從日誌資訊來看,提示說2181這個埠號造成的。 不是一個合法的數字。
zkServer.sh裡有這麼一句:
clientPort=`grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’` grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’在執行過程中,實際命令如下: grep ‘^[[:space:]]*clientPort[^[:alpha:]]’ /app/zookeeper-3.4.6/bin/../conf/zoo.cfg | sed -e ‘s/.*=//’
-
最終可以基本確認配置檔案存在問題。
-
替換配置檔案:重啟 問題解決。
-
存在原因可能是編輯zoo.cfg 編碼格式等等引起檔案內容解析異常。
作者: 毛正衛
擴充閱讀: 【宜信技術沙龍01期】AI中臺:一種敏捷的智慧業務支援方案|分享實錄
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69918724/viewspace-2646024/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- ASP.NET Core擴充套件庫之Http通用擴充套件ASP.NET套件HTTP
- kotlin 擴充套件(擴充套件函式和擴充套件屬性)Kotlin套件函式
- Scrapy之pipeline&擴充套件套件
- 【Kotlin】擴充套件屬性、擴充套件函式Kotlin套件函式
- PHP 操作 Redis 之 phpredis 擴充套件PHPRedis套件
- burpsuite擴充套件開發之PythonUI套件Python
- Dubbo系列之 (一)SPI擴充套件套件
- DOM擴充套件之HTML5套件HTML
- [開發效率]Kotlin之擴充套件Kotlin套件
- ES6之字串擴充套件字串套件
- SpringMVC 擴充套件SpringMVC套件
- Mybatis擴充套件MyBatis套件
- 擴充套件工具套件
- Sanic 擴充套件套件
- ORACLE 擴充套件Oracle套件
- OAuth 2.0 擴充套件協議之 PKCEOAuth套件協議
- dart系列之:dart類的擴充套件Dart套件
- Android 面試之實戰擴充套件Android面試套件
- JMeter 擴充套件開發:擴充套件 TCP 取樣器JMeter套件TCP
- 使用Kotlin擴充套件函式擴充套件Spring Data案例Kotlin套件函式Spring
- ?用Chrome擴充套件管理器, 管理你的擴充套件Chrome套件
- ES6之正則的擴充套件套件
- ES6之函式的擴充套件函式套件
- 安裝PHP之PDO_MYSQL擴充套件PHPMySql套件
- WPF之花式控制元件功能擴充套件控制元件套件
- ES6之陣列的擴充套件陣列套件
- HTML5新增API之DOM 擴充套件HTMLAPI套件
- 提高擴充套件性套件
- LINQ擴充套件方法套件
- HttpContext擴充套件類HTTPContext套件
- Json擴充套件方法JSON套件
- 擴充套件BSGS/exBSGS套件
- 擴充套件包上傳套件
- Flask 自建擴充套件Flask套件
- Nmap 擴充套件(四)套件
- 分類擴充套件套件
- 擴充套件表示式套件
- 新增php擴充套件PHP套件