日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

寫了個簡單爬蟲,收集 Boss直聘自動駕駛崗位

來源: 責編: 時間:2024-03-18 09:35:13 178觀看
導讀朋友想知道 Boss 直聘上關于自動駕駛的崗位有哪些 ,于是,筆者寫了一個簡單的爬蟲 crawler-boss ,將全國大城市相關崗位的信息收集起來。這篇文章,筆者想分享爬蟲 crawler-boss 的設計思路。圖片一、基本原理 Selenium + c

朋友想知道 Boss 直聘上關于自動駕駛的崗位有哪些 ,于是,筆者寫了一個簡單的爬蟲 crawler-boss ,將全國大城市相關崗位的信息收集起來。ioG28資訊網——每日最新資訊28at.com

這篇文章,筆者想分享爬蟲 crawler-boss 的設計思路。ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

一、基本原理 Selenium + chromedriver

對于很多動態渲染的網頁而言,想要抓取它的數據,就需要對網頁的 JS 代碼以及 Ajax 接口等進行分析。ioG28資訊網——每日最新資訊28at.com

而當 JS 代碼混亂,難以分析,Ajax 的接口又含有很多加密參數的時候,就非常難以直接找出規律,那么上述過程會花費大量的時間和精力。ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

上圖中, Boss  直聘接口參數比較多,筆者并不想花太多時間研究這些參數,于是筆者選擇了另一種方案:Selenium + chromedriver。ioG28資訊網——每日最新資訊28at.com

Selenium是 web 瀏覽器自動化測試的工具,它可以模擬用戶與所有主流瀏覽器之間的交互,比如點擊,輸入,抓取,拖拽等等。ioG28資訊網——每日最新資訊28at.com

由于網頁大多采用是 JavaScript 動態渲染,使得爬蟲返回的結果可能與用戶實際看到的網頁并不一致。我們看到的網頁可能是經過 Ajax 加載,或者是JavaScript以及其他算法計算后生成的。ioG28資訊網——每日最新資訊28at.com

因此,我們可以使用 Selenium直接模擬瀏覽器運行,我們肉眼看到的是什么樣,能夠抓取的數據就是什么樣。ioG28資訊網——每日最新資訊28at.com

二、安裝 chromedriver

WebDriver 是 Selenium 的核心組件 , 負責控制瀏覽器進行各種操作。WebDriver 可以通過不同的驅動程序與不同的瀏覽器進行通信,比如 ChromeDriver、FirefoxDriver 等。ioG28資訊網——每日最新資訊28at.com

1、查看當前Google瀏覽器版本

打開Google瀏覽器,網址欄輸入:chrome://settings/helpioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

2、下載對應版本的chromedriver

對照你的版本下載,當你使用的是 Chrome 版本 115 或更高版本,就點最上面的鏈接:ioG28資訊網——每日最新資訊28at.com

https://chromedriver.chromium.org/downloads/ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

找到你對應的版本,我這里是122.0.6261.129ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

下載完成之后,將文件解壓后,拷貝到 /usr/local/bin/ 目錄 。ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

安裝完 chromedriver 后,Java 應用中添加如下依賴:ioG28資訊網——每日最新資訊28at.com

<dependency>    <groupId>org.seleniumhq.selenium</groupId>    <artifactId>selenium-server</artifactId>    <version>3.141.59</version></dependency>

然后通過如下代碼,測試環境是否 OK 。ioG28資訊網——每日最新資訊28at.com

public static void main(String[] args) {      WebDriver webDriver = new ChromeDriver();      webDriver.get("https://juejin.cn");}

點擊運行,如果打開了掘金網頁說明環境配置成功。ioG28資訊網——每日最新資訊28at.com

三、流程分析

1、進入搜索頁面 , 搜索框中輸入‘自動駕駛’ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

2、搜索結果若出現登錄浮窗,則關閉,將頁面中職位列表通過 class 截取出來,保存到數據庫ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

3、點擊下一頁ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

四、爬蟲演示

ioG28資訊網——每日最新資訊28at.com

執行完成之后,職位記錄表新增了接近 2000 條記錄。ioG28資訊網——每日最新資訊28at.com

ioG28資訊網——每日最新資訊28at.com

圖片圖片ioG28資訊網——每日最新資訊28at.com

ioG28資訊網——每日最新資訊28at.com

五、寫到最后

當我們將 Selenium 作為爬蟲工具時,盡管它有很多優點,但也存在明顯的缺點。ioG28資訊網——每日最新資訊28at.com

Selenium 模擬瀏覽器動作,除了加載需要的數據外,還會加載圖片、JS、CSS等不必要的內容,導致網絡資源和計算資源消耗增加,爬取速度變慢,爬取規模受限。ioG28資訊網——每日最新資訊28at.com

因此,長期大規模使用 Selenium 作為生產工具不是一個明智的選擇。ioG28資訊網——每日最新資訊28at.com

然而,如果只是想在個人電腦上快速抓取少量數據,Selenium 確實是一個非常方便的工具。ioG28資訊網——每日最新資訊28at.com

最后, crawler-boss 的源碼實現非常簡單,假如同學們感興趣,可以關注公眾號,回復 「爬蟲」即可獲取。ioG28資訊網——每日最新資訊28at.com

參考文檔:

https://zhuanlan.zhihu.com/p/137710454ioG28資訊網——每日最新資訊28at.com

https://juejin.cn/post/7284318118993068051ioG28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-76483-0.html寫了個簡單爬蟲,收集 Boss直聘自動駕駛崗位

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: SpringCloud微服務中如何實現多端認證?

下一篇: 工作中最常見的六種OOM問題

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 陆河县| 涿鹿县| 通江县| 花垣县| 泸溪县| 林甸县| 郸城县| 临城县| 庆城县| 上饶县| 宿松县| 北流市| 泰和县| 尼勒克县| 竹北市| 镇平县| 陇川县| 长治县| 四川省| 正安县| 巴马| 响水县| 方城县| 大安市| 星子县| 登封市| 德昌县| 银川市| 彰化市| 同仁县| 比如县| 壤塘县| 甘南县| 牙克石市| 新河县| 永城市| 昭通市| 桂林市| 太原市| 尉犁县| 慈溪市|