當(dāng)前位置：首頁 > 科技 > 軟件

文本抓取利器，Python和Beautiful Soup爬蟲助你事半功倍

來源：責(zé)編：時間：2023-12-09 15:21:57 308觀看

導(dǎo)讀一、簡介網(wǎng)絡(luò)爬蟲是一項非常搶手的技能。收集、分析和清洗數(shù)據(jù)是數(shù)據(jù)科學(xué)項目中最重要的部分。今天介紹如何從鏈接中爬取高質(zhì)量文本內(nèi)容，我們使用迭代，從大約700個鏈接中進(jìn)行網(wǎng)絡(luò)爬取。如果想直接跳轉(zhuǎn)到代碼部分，可以在

一、簡介

網(wǎng)絡(luò)爬蟲是一項非常搶手的技能。收集、分析和清洗數(shù)據(jù)是數(shù)據(jù)科學(xué)項目中最重要的部分。

今天介紹如何從鏈接中爬取高質(zhì)量文本內(nèi)容，我們使用迭代，從大約700個鏈接中進(jìn)行網(wǎng)絡(luò)爬取。

如果想直接跳轉(zhuǎn)到代碼部分，可以在下方鏈接GitHub倉庫中找到，同時還會找到一個包含將爬取的700個鏈接的.csv數(shù)據(jù)集！

【GitHub】：https://github.com/StefanSilver3/MediumArticlesCode-byStefanSilver/tree/main/WebScraping

二、從單個鏈接進(jìn)行網(wǎng)頁抓取

首先，導(dǎo)入所需的庫。

from bs4 import BeautifulSoupimport requestsfrom bs4.element import Commentimport urllib.request

如果還沒有安裝BeautifulSoup庫，可以直接在Python代碼中這樣做。

pip install beautifulsoup4

然后，開始編碼。這里定義兩個函數(shù)，一個用于檢查要排除的內(nèi)容，另一個用于從網(wǎng)站上爬取內(nèi)容。

第一個函數(shù)用于查找要排除的元素，代碼如下。

# 要從提取的文本中過濾的標(biāo)簽def tag_visible(element):    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:        return False    if isinstance(element, Comment):        return False    return True

第二個函數(shù)將使用這個函數(shù)，以確保所有的無用內(nèi)容都從最終結(jié)果中排除，代碼如下。

# 從網(wǎng)頁文本中過濾前一個函數(shù)中提到的所有標(biāo)簽的函數(shù)def text_from_html(body):    soup = BeautifulSoup(body, 'html.parser')    texts = soup.findAll(string=True)    visible_texts = filter(tag_visible, texts)      return u" ".join(t.strip() for t in visible_texts)

接著，可以在一個新鏈接上測試這兩個函數(shù)。你可以放置任意鏈接，不需要使用下面的鏈接。

html = urllib.request.urlopen('https://www.artificialintelligence-news.com/2023/11/20/microsoft-recruits-former-openai-ceo-sam-altman-co-founder-greg-brockman/').read()print(text_from_html(html))

網(wǎng)絡(luò)爬取的內(nèi)容將會像下面的文本一樣。

圖片

截圖1：爬取的網(wǎng)站——隨機(jī)鏈接

注意，一些網(wǎng)站會檢測到網(wǎng)絡(luò)爬取活動，并阻止網(wǎng)絡(luò)爬取嘗試。如果發(fā)生這種情況，將收到一個403錯誤，這是“禁止”的代碼。

三、同時爬取多個鏈接

測試了簡單的提取函數(shù)，接下來對提供的鏈接數(shù)據(jù)集的所有鏈接進(jìn)行迭代提取。

首先，確保獲取了在GitHub倉庫中找到的數(shù)據(jù)集。然后，讀取數(shù)據(jù)集并將列名更改為Link，原本的列名是max(page)。

df = pd.read_csv("furniture_stores_pages.csv")df.rename(columns={"max(page)":"Link"}, inplace=1)

現(xiàn)在，創(chuàng)建一個以0為起始值的變量x，它將在列表中的每個鏈接上進(jìn)行迭代。當(dāng)然元素變量也可以使用。

x=0df_cnotallow=[]for element in df.iterrows():    try:        url = df["Link"][x]        scraped_text = urllib.request.urlopen(url).read()        df_contents.append(text_from_html(scraped_text))        x=x+1    except:        print("(",x,")","This website could not be scraped-> ",df["Link"][x])        x=x+1

然后，定義一個名為df_contents的列表，它將包含從每個網(wǎng)頁中提取的所有可以爬取的文本。

接下來，遍歷每個元素，如果可以訪問且包含相關(guān)數(shù)據(jù)，就從中提取信息。這只是對隨機(jī)鏈接進(jìn)行上述測試，但測試的對象是提供的數(shù)據(jù)集中的所有鏈接。

代碼中還使用了try-except對無法提取的鏈接進(jìn)行跳過。

現(xiàn)在，檢查新列表(df_contents)的長度，查看提取了多少鏈接。

len(df_contents)

這個函數(shù)返回268，這意味著在700多個網(wǎng)站中只有268個爬取成功。然后，可以使用下面的代碼訪問并打印第一個被爬取的網(wǎng)站。

df_contents[0]

這將打印第一個文本，示例如下所示（簡短版本）：

圖片

截圖2：從數(shù)據(jù)集中爬取的網(wǎng)站

如果需要的話，也可以使用下面的代碼反復(fù)打印。每打印完一個元素后，都需要輸入任意字符以繼續(xù)，這樣就可以逐一檢查每個提取的網(wǎng)站。

count = 0for element in df_contents:    print(df_contents[count])    print("/n /n---------------------------------------------------------------------------------------- /n /n")        print("Press any key to continue to print df_contents [",count+1,"]")    input()    count= count+1

本文鏈接：http://www.www897cc.com/showinfo-26-40655-0.html文本抓取利器，Python和Beautiful Soup爬蟲助你事半功倍

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：微軟：VS Code已成為Java巨頭！

下一篇： Java高并發(fā)詳解，死鎖的成因與解決方法

標(biāo)簽：

熱門焦點(diǎn)

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

疫情帶來了網(wǎng)課，網(wǎng)課盤活了安卓平板，安卓平板市場雖然中途停滯了幾年，但好的一點(diǎn)就是停滯的這幾年行業(yè)又有了新的發(fā)展方向，例如超窄邊框、高刷新率、多攝鏡頭組合等，這就讓安卓
天貓精靈Sound Pro體驗：智能音箱沒有音質(zhì)？來聽聽我的

這幾年除了手機(jī)作為智能生活終端最主要的核心之外，第二個可以成為中心點(diǎn)的產(chǎn)品是什么？——是智能音箱。手機(jī)在執(zhí)行命令的時候有兩種操作方式，手和智能語音助手，而智能音箱只
6月iOS設(shè)備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

沒有新品發(fā)布，自然iOS設(shè)備性能榜的上榜設(shè)備就沒有什么更替，僅僅只有跑分變化而產(chǎn)生的排名變動，畢竟蘋果新品的發(fā)布節(jié)奏就是這樣的，一年下來也就幾個移動端新品，不會像安卓廠商，一
印度登月最關(guān)鍵一步！月船三號今晚進(jìn)入環(huán)月軌道

8月5日消息，據(jù)印度官方消息，月船三號將于北京時間今晚21時30分左右開始近月制動進(jìn)入環(huán)月軌道。這是該探測器能夠成功的最關(guān)鍵步驟之一，如果成功將開始圍
掘力計劃第 20 期：Flutter 混合開發(fā)的混亂之治

在掘力計劃系列活動第20場，《Flutter 開發(fā)實戰(zhàn)詳解》作者，掘金優(yōu)秀作者，Github GSY 系列目負(fù)責(zé)人戀貓的小郭分享了Flutter 混合開發(fā)的混亂之治。Flutter 基于自研的 Skia 引擎
每天一道面試題-CPU偽共享

前言：了不起：又到了每天一到面試題的時候了！學(xué)弟，最近學(xué)習(xí)的怎么樣啊了不起學(xué)弟：最近學(xué)習(xí)的還不錯，每天都在學(xué)習(xí)，每天都在進(jìn)步！了不起：那你最近學(xué)習(xí)的什么呢？了不起學(xué)弟：最近在學(xué)習(xí)C
華為開發(fā)者大會2023日程公開：開設(shè)鴻蒙HarmonyOS 4體驗區(qū)

IT之家 7 月 31 日消息，華為今日公布了 HDC.Together 開發(fā)者大會 2023 的詳細(xì)日程。整場大會將于 8 月 4 日-6 日之間舉行，屆時將發(fā)布最新一代鴻蒙 H
AI芯片初創(chuàng)公司Tenstorrent獲三星和現(xiàn)代1億美元投資

Tenstorrent是一家由芯片行業(yè)資深人士Jim Keller領(lǐng)導(dǎo)的加拿大初創(chuàng)公司，專注于開發(fā)人工智能芯片，該公司周三表示，已經(jīng)從現(xiàn)代汽車集團(tuán)和三星投資基金等
iQOO Neo8 Pro即將開售：到手價3099元起安卓性能最強(qiáng)旗艦

5月23日，iQOO如期舉行了新品發(fā)布會，全新的iQOO Neo8系列也正式與大家見面，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標(biāo)準(zhǔn)版搭載高通驍龍8+，而Pro版更

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

文本抓取利器，Python和Beautiful Soup爬蟲助你事半功倍

一、簡介

二、從單個鏈接進(jìn)行網(wǎng)頁抓取

三、同時爬取多個鏈接

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

天貓精靈Sound Pro體驗：智能音箱沒有音質(zhì)？來聽聽我的

6月iOS設(shè)備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

印度登月最關(guān)鍵一步！月船三號今晚進(jìn)入環(huán)月軌道

掘力計劃第 20 期：Flutter 混合開發(fā)的混亂之治

每天一道面試題-CPU偽共享

華為開發(fā)者大會2023日程公開：開設(shè)鴻蒙HarmonyOS 4體驗區(qū)

AI芯片初創(chuàng)公司Tenstorrent獲三星和現(xiàn)代1億美元投資

iQOO Neo8 Pro即將開售：到手價3099元起安卓性能最強(qiáng)旗艦

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊