程式碼託管位置 github-pytools
需求
讀取xml資料檔案,檔案較大,需要實時處理插入到資料庫
xml文件
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
<PERSONS> <person> <id>100000</id> <sex>男</sex> <address>北京,海淀區</address> <fansNum>437</fansNum> <summary>1989</summary> <wbNum>333</wbNum> <gzNum>242</gzNum> <blog>null</blog> <edu>大學</edu> <work></work> <renZh>1</renZh> <brithday>2月14日</brithday> </person> </PERSONS> |
處理
sax處理時並不會像dom一樣可以以類似節點的維度進行讀取,它只有 開始標籤 內容 結束標籤 之分
處理思想是:通過一個handler,對開始標籤,內容,結束標籤各有一個處理函式
程式碼及註解
person 處理類
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
from xml.sax import handler,parseString class PersonHandler(handler.ContentHandler): def __init__(self, db_ops): #db op obj self.db_ops = db_ops #儲存一個person的map self.person = {} #當前的tag self.current_tag = "" #是否是tag之間的內容 ,目的拿到tag間內容,不受空白的干擾 self.in_quote = 0 #開始,清空map def startElement(self, name, attr): #以person,清空map if name == "person": self.person = {} #記錄 狀態 self.current_tag = name self.in_quote = 1 #結束,插入資料庫 def endElement(self, name): #以person結尾 代表讀取一個person的資訊結束 if name == "person": #do something in_fields = tuple([ ('"' + self.person.get(i,"") + '"') for i in fields ]) print in_sql % in_fields db_ops.insert( in_sql%(in_fields)) #處理 self.in_quote = 0 def characters(self, content): #若是在tag之間的內容,更新到map中 if self.in_quote: self.person.update({self.current_tag: content}) |
加上入庫的完整程式碼
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
#!/usr/bin/python # -*- coding:utf-8 -*- #parse_person.py #version : 0.1 #author : wukunliang@163.com #desc : parse person.xml and out sql import sys,os import MySQLdb reload(sys) sys.setdefaultencoding('utf-8') in_sql = "insert into person(id,sex,address,fansNum,summary,wbNum,gzNum,blog,edu,work,renZh,brithday) values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)" fields = ("id","sex","address","fansNum","summary","wbNum","gzNum","blog","edu","work","renZh","brithday") #資料庫方法 class Db_Connect: def __init__(self, db_host, user, pwd, db_name, charset="utf8", use_unicode = True): print "init begin" print db_host, user, pwd, db_name, charset , use_unicode self.conn = MySQLdb.Connection(db_host, user, pwd, db_name, charset=charset , use_unicode=use_unicode) print "init end" def insert(self, sql): try: n = self.conn.cursor().execute(sql) return n except MySQLdb.Warning, e: print "Error: execute sql '",sql,"' failed" def close(self): self.conn.close() #person 處理類 from xml.sax import handler,parseString class PersonHandler(handler.ContentHandler): def __init__(self, db_ops): #db op obj self.db_ops = db_ops #儲存一個person的map self.person = {} #當前的tag self.current_tag = "" #是否是tag之間的內容 self.in_quote = 0 #開始,清空map def startElement(self, name, attr): #以person,清空map if name == "person": self.person = {} #記錄 狀態 self.current_tag = name self.in_quote = 1 #結束,插入資料庫 def endElement(self, name): #以person結尾 代表讀取一個person的資訊結束 if name == "person": #do something in_fields = tuple([ ('"' + self.person.get(i,"") + '"') for i in fields ]) print in_sql % in_fields db_ops.insert( in_sql%(in_fields)) #處理 self.in_quote = 0 def characters(self, content): #若是在tag之間的內容,更新到map中 if self.in_quote: self.person.update({self.current_tag: content}) if __name__ == "__main__": f = open("./person.xml") #如果原始檔gbk 轉碼 若是utf-8,去掉decode.encode db_ops = Db_Connect("127.0.0.1", "root", "root", "test") parseString(f.read().decode("gbk").encode("utf-8"), PersonHandler(db_ops)) f.close() db_ops.close() |
平時拿python來分析資料,工具指令碼還有hadoop streamming,但是用的面和深度實在欠缺
只能說道行還淺,需要多多實踐
The end!
打賞支援我寫出更多好文章,謝謝!
打賞作者
打賞支援我寫出更多好文章,謝謝!
任選一種支付方式