當(dāng)前位置：首頁 > 科技 > 軟件

Python爬蟲神器：Beautiful Soup指南，輕松解析網(wǎng)頁數(shù)據(jù)！

來源：責(zé)編：時間：2023-11-28 09:32:53 248觀看

導(dǎo)讀Beautiful Soup（簡稱BS4）是一種強(qiáng)大而靈活的HTML和XML解析庫，廣泛用于Python爬蟲和數(shù)據(jù)采集中。這篇文章介紹 Beautiful Soup的功能和用法，并提供示例代碼，幫助你更好地理解和應(yīng)用這個優(yōu)秀的庫。一、Beautiful Soup簡介1、

Beautiful Soup（簡稱BS4）是一種強(qiáng)大而靈活的HTML和XML解析庫，廣泛用于Python爬蟲和數(shù)據(jù)采集中。

這篇文章介紹 Beautiful Soup的功能和用法，并提供示例代碼，幫助你更好地理解和應(yīng)用這個優(yōu)秀的庫。

一、Beautiful Soup簡介

1、什么是Beautiful Soup？

Beautiful Soup是一個Python庫，用于解析HTML和XML文檔，并提供了簡單而直觀的方式來遍歷文檔樹、搜索特定標(biāo)簽和提取數(shù)據(jù)。它的名字取自路易斯·卡洛斯·蒙特斯·庫比斯（Luis Carlos Monteiro Cabral de Melo）的詩歌《Alice》中的一句話：“Beautiful Soup so rich and green, Waiting in a hot tureen!”，寓意著它用來“撈取”美味的數(shù)據(jù)。

2、安裝Beautiful Soup

使用pip來安裝Beautiful Soup庫：

pip install beautifulsoup4

同時，為了能夠解析HTML和XML文檔，還需要安裝一個解析器，如lxml或html5lib：

pip install lxml# 或pip install html5lib

3、導(dǎo)入Beautiful Soup

導(dǎo)入Beautiful Soup庫：

from bs4 import BeautifulSoup

二、Beautiful Soup的基本用法

1、解析HTML文檔

Beautiful Soup可以解析HTML或XML文檔，并將其轉(zhuǎn)換成文檔樹的形式，以便于遍歷和操作。

示例代碼：

from bs4 import BeautifulSoup# HTML文檔示例html_doc = """<html>    <head>        <title>我的第一個網(wǎng)頁</title>    </head>    <body>        <h1>歡迎來到我的網(wǎng)頁</h1>        <p>這是一個段落。</p>    </body></html>"""# 創(chuàng)建Beautiful Soup對象soup = BeautifulSoup(html_doc, 'html.parser')

在這個示例中，創(chuàng)建了一個Beautiful Soup對象，并使用html.parser解析器解析了HTML文檔。

2、遍歷文檔樹

一旦有了Beautiful Soup對象，就可以遍歷文檔樹，查找特定的標(biāo)簽和數(shù)據(jù)。

以下是一些基本的遍歷方法：

（1）查找標(biāo)簽

使用find()方法來查找特定的標(biāo)簽：

# 查找第一個<h1>標(biāo)簽h1_tag = soup.find('h1')# 打印標(biāo)簽文本print(h1_tag.text)

（2）遍歷子節(jié)點

使用children屬性來遍歷一個標(biāo)簽的子節(jié)點：

# 遍歷<body>標(biāo)簽的子節(jié)點body_tag = soup.find('body')for child in body_tag.children:    print(child)

（3）遍歷所有標(biāo)簽

使用find_all()方法來查找所有特定類型的標(biāo)簽：

# 查找所有<p>標(biāo)簽p_tags = soup.find_all('p')# 遍歷所有<p>標(biāo)簽for p_tag in p_tags:    print(p_tag.text)

3、提取數(shù)據(jù)

找到目標(biāo)標(biāo)簽，就可以提取其中的數(shù)據(jù)。

以下是一些提取數(shù)據(jù)的示例：

（1）獲取標(biāo)簽文本

使用.text屬性獲取標(biāo)簽的文本內(nèi)容：

# 獲取<h1>標(biāo)簽的文本內(nèi)容h1_text = h1_tag.textprint(h1_text)

（2）獲取標(biāo)簽屬性

如果標(biāo)簽有屬性，可以使用字典的方式獲取：

# 獲取<head>標(biāo)簽的lang屬性值head_tag = soup.find('head')lang_value = head_tag['lang']print(lang_value)

（3）提取鏈接

如果要提取鏈接，可以使用.get()方法：

# 獲取<a>標(biāo)簽的鏈接a_tag = soup.find('a')link = a_tag.get('href')print(link)

三、高級用法

1、使用CSS選擇器

Beautiful Soup支持使用CSS選擇器來查找標(biāo)簽，這使得查找更靈活和方便：

# 使用CSS選擇器查找所有<p>標(biāo)簽p_tags = soup.select('p')

2、嵌套查找

在查找方法中嵌套使用，以查找更深層次的標(biāo)簽：

# 查找<body>標(biāo)簽下的所有<p>標(biāo)簽p_tags = soup.find('body').find_all('p')

3、處理不規(guī)范的HTML

Beautiful Soup可以處理不規(guī)范的HTML文檔，自動修復(fù)標(biāo)簽嵌套和缺失的情況：

# 處理不規(guī)范的HTML文檔dirty_html = "<p>這是一個段落</p>"soup = BeautifulSoup(dirty_html, 'html.parser')print(soup.prettify())

四、示例代碼

以下是一個完整的示例，演示了如何使用Beautiful Soup解析HTML文檔、遍歷文檔樹、查找標(biāo)簽和提取數(shù)據(jù)：

from bs4 import BeautifulSoup# HTML文檔示例html_doc = """<html>    <head>        <title>我的第一個網(wǎng)頁</title>    </head>    <body>        <h1>歡迎來到我的網(wǎng)頁</h1>        <p>這是一個段落。</p>    </body></html>"""# 創(chuàng)建Beautiful Soup對象soup = BeautifulSoup(html_doc, 'html.parser')# 查找<h1>標(biāo)簽h1_tag = soup.find('h1')# 獲取<h1>標(biāo)簽的文本內(nèi)容h1_text = h1_tag.text# 查找所有<p>標(biāo)簽p_tags = soup.find_all('p')# 提取第一個<p>標(biāo)簽的文本內(nèi)容p_text = p_tags[0].text# 打印結(jié)果print("標(biāo)題:", h1_text)print("段落:", p_text)

這個示例演示了如何解析HTML文檔、查找標(biāo)簽和提取數(shù)據(jù)，以及如何處理不規(guī)范的HTML文檔。

總結(jié)

Beautiful Soup是一個強(qiáng)大的HTML和XML解析庫，為Python爬蟲和數(shù)據(jù)采集提供了強(qiáng)大的工具。

本文鏈接：http://www.www897cc.com/showinfo-26-34568-0.htmlPython爬蟲神器：Beautiful Soup指南，輕松解析網(wǎng)頁數(shù)據(jù)！

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：徹底解決Spring Cloud Gateway中Body讀取問題

下一篇：一篇學(xué)會 Rust 內(nèi)存布局

標(biāo)簽：

熱門焦點

紅魔電競平板評測：大屏幕硬實力

前言：三年的疫情因為要上網(wǎng)課的原因激活了平板市場，如今網(wǎng)課的時代已經(jīng)過去，大家的生活都恢復(fù)到了正軌，這也就意味著，真正考驗平板電腦生存的環(huán)境來了。也就是面對著這種殘酷的
6月安卓手機(jī)性能榜：vivo/iQOO霸占旗艦排行榜前三

2023年上半年已經(jīng)正式過去了，我們也迎來了安兔兔V10版本，在新的驍龍8Gen3和天璣9300發(fā)布之前，性能榜的榜單大體會以驍龍8Gen2和天璣9200+為主，至于那顆3.36GHz的驍龍8Gen2領(lǐng)先
《英雄聯(lián)盟》夏季賽總決賽今日開打！JDG對陣LNG首發(fā)名單來了 Knight：準(zhǔn)備三連冠

8月5日消息，今日17:00，《英雄聯(lián)盟》2023LPL夏季賽總決賽將正式開打，由JDG對陣LNG。對兩支隊伍來說，這場比賽不僅要爭奪夏季賽冠軍，更要決定誰才是LPL賽區(qū)一
跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標(biāo)年度性能之王

8月5日消息，Redmi K60至尊版將于8月發(fā)布，在此前舉行的戰(zhàn)略發(fā)布會上，官方該機(jī)將搭載搭載天璣9200+處理器，安兔兔V10跑分超177萬分，是目前安卓陣營最高的分?jǐn)?shù)
iQOO Neo8系列今日官宣：首發(fā)天璣9200+ 全球安卓最強(qiáng)芯！

在昨日舉行的的聯(lián)發(fā)科新一代旗艦芯片天璣9200+的發(fā)布會上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發(fā)搭載這款當(dāng)前性能最強(qiáng)大的移動平臺
機(jī)構(gòu)稱Q2全球智能手機(jī)出貨量同比下滑11% 蘋果份額依舊第2

7月20日消息，據(jù)外媒報道，研究機(jī)構(gòu)的報告顯示，由于需求下滑，今年二季度全球智能手機(jī)的出貨量，同比下滑了11%，三星、蘋果等主要廠商的銷量，較去年同期均有下
Counterpoint ：OPPO雙旗艦戰(zhàn)略全面落地高端產(chǎn)品銷量增長22%

2023年6月30日，全球行業(yè)分析機(jī)構(gòu)Counterpoint Research發(fā)布的《中國智能手機(jī)高端市場白皮書》顯示，中國智能手機(jī)品牌正在尋求高質(zhì)量發(fā)展，中國高端智能
外交部：美方應(yīng)停止在網(wǎng)絡(luò)安全問題上不負(fù)責(zé)任地指責(zé)他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關(guān)科研成果。中方對此有何評論？對此
榮耀Magic4 至臻版首創(chuàng)智慧隱私通話強(qiáng)勁影音系統(tǒng)

2022年第一季度臨近尾聲，在該季度內(nèi)，許多品牌陸續(xù)發(fā)布自己的最新產(chǎn)品，讓大家從全新的角度來了解當(dāng)今的手機(jī)技術(shù)。手機(jī)是電子設(shè)備中，更新迭代十分迅速的一款產(chǎn)品，基

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

Python爬蟲神器：Beautiful Soup指南，輕松解析網(wǎng)頁數(shù)據(jù)！

一、Beautiful Soup簡介

1、什么是Beautiful Soup？

2、安裝Beautiful Soup

3、導(dǎo)入Beautiful Soup

二、Beautiful Soup的基本用法

1、解析HTML文檔

2、遍歷文檔樹

（1）查找標(biāo)簽

（2）遍歷子節(jié)點

（3）遍歷所有標(biāo)簽

3、提取數(shù)據(jù)

（1）獲取標(biāo)簽文本

（2）獲取標(biāo)簽屬性

（3）提取鏈接

三、高級用法

1、使用CSS選擇器

2、嵌套查找

3、處理不規(guī)范的HTML

四、示例代碼

總結(jié)

紅魔電競平板評測：大屏幕硬實力

6月安卓手機(jī)性能榜：vivo/iQOO霸占旗艦排行榜前三

《英雄聯(lián)盟》夏季賽總決賽今日開打！JDG對陣LNG首發(fā)名單來了 Knight：準(zhǔn)備三連冠

跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標(biāo)年度性能之王

iQOO Neo8系列今日官宣：首發(fā)天璣9200+ 全球安卓最強(qiáng)芯！

機(jī)構(gòu)稱Q2全球智能手機(jī)出貨量同比下滑11% 蘋果份額依舊第2

Counterpoint ：OPPO雙旗艦戰(zhàn)略全面落地高端產(chǎn)品銷量增長22%

外交部：美方應(yīng)停止在網(wǎng)絡(luò)安全問題上不負(fù)責(zé)任地指責(zé)他國

榮耀Magic4 至臻版首創(chuàng)智慧隱私通話強(qiáng)勁影音系統(tǒng)

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊