day10 BS4

YuFu259發表於2024-06-07

原文網址 : https://www.cnblogs.com/FGOO/p/18237279

re.findall("規則","待匹配字串",模式)
re.search / group//指定拿什麼資料
上一節補充：with open 伴隨開啟 as f 賦值聚鼎
s = f.read //所有字串列印出來賦值給s
re.S萬用字元能夠匹配包括換行符的一切
r"\d+" 原生字串解析所有的數字
re.search只第一個匹配條件的
re.findall匹配全部
ret.group提取匹配的資料 \ \透過標記的資料只提取某一項的內容
?p<名稱>//標記一定加在小括號前面
re.match 起始判斷的
re.split(r"\s+'',txt)\貪婪匹配全部的空格
print("12 34 56 88").replace("88","yuan")//88替換原則
全部提貨：ret = re.sub(r"\d+","yuan",s) 對應：匹配的數字，替換，替換表
ret = re.sub(r"\d+","yuan",s，2) ：指定次數

compile 提升效能，載入規則需要效能

reg = re.compile（r"\d+“）指定規則\相當於函式的呼叫
print（reg.findall（s1）））呼叫規則
前面加r表示不要解析規則，如果py先解析規則會引發報錯。r+之後把規則當初原生字串（轉譯字元）

BS4初識 全稱Beautiful Soup是python的一個庫//主要功能從網頁抓取資料針對於html
是可以從HTML或XML檔案中提取資料的py庫
安裝：BS4和BS
先例項化物件：soup = BeautifulSoup(text)
print(soup.find_all("a"))//提取全部的a標籤
BeautifulSoup的物件（text，'html.parser'）
print（soup.b）//列印b標籤的格式是tag可提取的只能找到第一個
地址概念：先找到大的在找中的然後小的，#print（soup.p.b.name）
#print （soup.a["href"]）//提取超連結
#print（soup.p.text）和（soup.p.string）一個只提取文字

$\textcolor{GreenYellow}{print（soup.p.text）和（soup.p.string）一個只提取文字：}$

$\textcolor{Yellow}{顏色：Yellow}$
ret = soup.find_all("a")
d = {}
for tag in ret:
val = tag.text
h = tag.attrs.get（"href"）
print(val,h)
d[val] = h //以val為鍵以h為值
print(d)

print(soup.p.contents) 都是子節點
print(soup.p.children) //迭代器封裝
print(list(soup.p.children)) //強轉然後顯示內容

print(soup.a.next_sibing)//下一個兄弟，加幾個找到下下個兄弟
print(soup.a.previous_sibling)//找上一個標籤
$\textcolor{Yellow}{搜尋文件樹}$
find_all（）方法 name引數
1.字串，即標籤名
ret = soup.find_all(name = "b")
print(ret)
2.正則
ret = soup.find_all(name=re.compile('^b')) //查詢b開頭的
3.列表
ret = soup.find_all(name=['a',"b"])
4.方法
按屬性過濾
ret = soup.find_all(class_="sister")

按文字過濾：
ret = soup.find_all(string=re.compile("匹配開頭詞"),limit=1)//這是加上正則，不加正則就沒有完整的,limt次數的限制

MySQL day10
2020-10-10
MySql
day10打卡
2024-08-30
bs4元素定位
2024-06-13
BeautifulSoup(bs4)細緻講解
2024-11-30
bs4的使用遍歷文件樹
2024-04-07
python3如何安裝bs4
2021-09-11
Python
Day10:函式與裝飾器
2019-03-31
函式
2-44鍾靜雯_day10
2020-12-29
淺談Python中的bs4基礎
2018-07-30
Python
day10:函式的實參&形參
2020-07-18
函式
Day10 棧和佇列Part1
2024-07-26
佇列
day10學習筆記之函式上
2020-11-14
筆記函式
傳智黑馬python基礎學習——day10
2019-01-25
Python
Day10 PythonWeb全棧課程課堂內容
2021-01-03
PythonWeb全棧
Python爬蟲--- 1.2 BS4庫的安裝與使用
2018-12-17
Python爬蟲
用xpath、bs4、re爬取B站python資料
2018-08-07
Python
爬蟲-使用BeautifulSoup4（bs4）解析html資料
2021-01-24
爬蟲HTML
Day10 鴻蒙，Ability全家桶（二）如何後臺執行任務
2021-02-01
鴻蒙
python爬蟲-requests與bs4獲得所有爐石傳說卡背
2019-02-16
Python爬蟲
【題解】Solution Set - NOIP2024集訓Day10 樹的直徑、重⼼、中⼼
2024-08-19
Python網路爬蟲四大選擇器（正規表示式、BS4、Xpath、CSS）總結
2019-06-24
Python爬蟲CSS
python爬蟲用bs4獲取標籤中間的文字內容以及標籤裡的屬性
2020-10-05
Python爬蟲
用 appium 爬取招聘資訊這塊的內容怎麼用 bs4 爬取？求大佬指導
2020-07-12
APP
用VSCode開發一個基於asp.net core 2.0/sql server linux(docker)/ng5/bs4的專案(3)
2018-03-09
VSCodeASP.NETSQLServerLinuxDocker
Day10 函式基礎+函式三種定義形式 + 函式的返回值、物件和引數 + 可變長引數
2024-10-24
函式物件
Day10(棧與佇列) | 150. 逆波蘭表示式求值 239. 滑動視窗最大值 347.前 K 個高頻元素
2024-07-15
佇列
【ACM演算法競賽日常訓練】DAY10題解與分析【月月給華華出題】【華華給月月出題】| 篩法 | 尤拉函式 | 數論
2023-04-04
ACM演算法函式

day10 BS4

compile 提升效能，載入規則需要效能

相關文章