當前位置：首頁 > 科技 > 軟件

PySpark常見類庫及名詞解釋

來源：責編：時間：2023-12-22 09:35:51 270觀看

導讀哈嘍大家好，我是了不起。PySpark是一個非常復雜的系統(tǒng)，我們初次接觸就會感覺有很多的名詞或者簡稱，今天就帶大家看一下常見的類庫和名詞的解釋，也是方便大家統(tǒng)一收藏，方便后續(xù)查找，先了解單一名詞的解釋，有利于快速的理解整

哈嘍大家好，我是了不起。

PySpark是一個非常復雜的系統(tǒng)，我們初次接觸就會感覺有很多的名詞或者簡稱，今天就帶大家看一下常見的類庫和名詞的解釋，也是方便大家統(tǒng)一收藏，方便后續(xù)查找，先了解單一名詞的解釋，有利于快速的理解整個PySpark的運行機制。

PySpark核心類

pyspark.SparkContext: Spark 庫的主要入口點，它表示與Spark集群的一個連接，其他重要的對象都要依賴它.SparkContext存在于Driver中，是Spark功能的主要入口。代表著與Spark集群的連接，可以在集群上創(chuàng)建RDD，accumulators和廣播變量
pyspark.RDD: 是Spark的主要數(shù)據(jù)抽象概念，是Spark庫中定義的一個抽象類。
pyspark.streaming.StreamingContext 一個定義在Spark Streaming庫中定義的類, 每一個Spark Streaming 應用都必須創(chuàng)建這個類
pyspark.streaming.DStrem：離散數(shù)據(jù)流，是Spark Streaming處理數(shù)據(jù)流的主要對象
pyspark.sql.SparkSession: 是DataFrame和SQL函數(shù)的主要入口點。
pyspark.sql.DataFrame: 是Spark SQL的主要抽象對象，若干行的分布式數(shù)據(jù)，每一行都要若干個有名字的列。跟R/Python中的DataFrame 相像,有著更豐富的優(yōu)化。DataFrame可以有很多種方式進行構造，例如：結構化數(shù)據(jù)文件，Hive的table, 外部數(shù)據(jù)庫，RDD。
pyspark.sql.Column DataFrame 的列表達.
pyspark.sql.Row DataFrame的行數(shù)據(jù)

Spark的基本概念

Application由多個Job組成，Job由多個Stage組成，Stage由多個Task組成。Stage是作業(yè)調(diào)度的基本單位。

RDD：是彈性分布式數(shù)據(jù)集（Resilient Distributed Dataset）的簡稱，是分布式內(nèi)存的一個抽象概念，提供了一種高度受限的共享內(nèi)存模型。
DAG：是Directed Acyclic Graph（有向無環(huán)圖）的簡稱，反映RDD之間的依賴關系。
Driver Program：控制程序，負責為Application構建DAG圖。
Cluster Manager：集群資源管理中心，負責分配計算資源。
Worker Node：工作節(jié)點，負責完成具體計算。
Executor：是運行在工作節(jié)點（Worker Node）上的一個進程，負責運行Task，并為應用程序存儲數(shù)據(jù)。
Application：用戶編寫的Spark應用程序，一個Application包含多個Job。
Job：作業(yè)，一個Job包含多個RDD及作用于相應RDD上的各種操作。
Stage：階段，是作業(yè)的基本調(diào)度單位，一個作業(yè)會分為多組任務，每組任務被稱為“階段”。
Task：任務，運行在Executor上的工作單元，是Executor中的一個線程。

RDD操作的兩種類型

RDD的操作有兩種類型，即Transformation操作和Action操作。轉換操作是從已經(jīng)存在的RDD創(chuàng)建一個新的RDD，而行動操作是在RDD上進行計算后返回結果到 Driver。

(1) Transformation操作：

用于對RDD的創(chuàng)建，還包括大量的操作方法，如map、filter、groupBy、join等，RDD利用這些操作生成新的RDD。

transformation都具有 Lazy 特性，即 Spark 不會立刻進行實際的計算，只會記錄執(zhí)行的軌跡，只有觸發(fā)Action操作的時候，它才會根據(jù) DAG 圖真正執(zhí)行。

(2) action操作：

數(shù)據(jù)執(zhí)行部分，通過執(zhí)行count、reduce、collect等真正執(zhí)行數(shù)據(jù)的計算。RDD的lazy模式，使得大部分前期工作都在transformation時已經(jīng)完成。

PySpark - MLlib

Apache Spark提供了一個名為MLlib的機器學習API。PySpark也在Python中使用這個機器學習API。它支持不同類型的算法。

mllib.classification - spark.mllib包支持二進制分類，多類分類和回歸分析的各種方法。分類中一些最流行的算法是Random Forest, Naive Bayes, Decision Tree等。
mllib.clustering - 聚類是一種無監(jiān)督的學習問題，您可以根據(jù)某些相似概念將實體的子集彼此分組。
mllib.fpm - 頻繁模式匹配是挖掘頻繁項，項集，子序列或其他子結構，這些通常是分析大規(guī)模數(shù)據(jù)集的第一步。多年來，這一直是數(shù)據(jù)挖掘領域的一個活躍的研究課題。
mllib.linalg - 線性代數(shù)的MLlib實用程序。
mllib.recommendation - 協(xié)同過濾通常用于推薦系統(tǒng)。這些技術旨在填寫用戶項關聯(lián)矩陣的缺失條目。
spark.mllib - 它目前支持基于模型的協(xié)同過濾，其中用戶和產(chǎn)品由一小組可用于預測缺失條目的潛在因素描述。spark.mllib使用交替最小二乘（ALS）算法來學習這些潛在因素。
mllib.regression - 線性回歸屬于回歸算法族。回歸的目標是找到變量之間的關系和依賴關系。使用線性回歸模型和模型摘要的界面類似于邏輯回歸案例。

總結

今天給大家?guī)淼氖荘ySpark常見類庫和名詞解釋，了解這些最基礎的名詞以后，我們看大段的相關資料就不會犯難了。

本文鏈接：http://www.www897cc.com/showinfo-26-51821-0.htmlPySpark常見類庫及名詞解釋

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： C++實現(xiàn)鏈表：原理、代碼與解析

下一篇： 14張圖巧妙的理解數(shù)據(jù)結構

標簽：

熱門焦點

紅魔電競平板評測：大屏幕硬實力

前言：三年的疫情因為要上網(wǎng)課的原因激活了平板市場，如今網(wǎng)課的時代已經(jīng)過去，大家的生活都恢復到了正軌，這也就意味著，真正考驗平板電腦生存的環(huán)境來了。也就是面對著這種殘酷的
太卷！Redmi MAX 100英寸電視便宜了：12999元買Redmi史上最大屏

8月5日消息，從小米商城了解到，Redmi MAX 100英寸巨屏電視日前迎來官方優(yōu)惠，到手價12999元，比發(fā)布價便宜了7000元，在大屏電視市場開卷。據(jù)了解，Redmi MAX 100
在線圖片編輯器，支持PSD解析、AI摳圖等

自從我上次分享一個人開發(fā)仿造稿定設計的圖片編輯器到現(xiàn)在，不知不覺已過去一年時間了，期間我經(jīng)歷了裁員失業(yè)、面試找工作碰壁，寒冬下一直沒有很好地履行計劃.....這些就放在日
慕巖炮轟抖音，百合網(wǎng)今何在？

來源：價值研究所作者：Hernanderz“難道就因為自己的一個產(chǎn)品牛逼了，從客服到總裁，都不愿意正視自己產(chǎn)品和運營上的問題，選擇逃避了嗎？”這一番話，出自百合網(wǎng)聯(lián)合創(chuàng)
華為將推出盤古數(shù)字人大模型可幫助用戶12小時完成數(shù)字人生成

在今日舉行的2023年華為云數(shù)字文娛AI創(chuàng)新峰會上，華為云全球Marketing與銷售服務總裁石冀琳表示，華為云將在后續(xù)推出盤古數(shù)字人大模型，可幫助用戶12小
2納米決戰(zhàn)2025

集微網(wǎng)報道從三強爭霸到四雄逐鹿，2nm的廝殺聲已然隱約傳來。無論是老牌勁旅臺積電、三星，還是誓言重回先進制程領先地位的英特爾，甚至初成立不久的新
與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開天N7系列

聯(lián)想與兆芯合作推出全新聯(lián)想旗艦版筆記本電腦開天 N7系列。這個系列采用兆芯KX-6640MA處理器平臺，KX-6640MA 處理器是采用了陸家嘴架構，16nm 工藝，4 核 4 線
電博會與軟博會實現(xiàn)"線下+云端"的雙線融合

在本次“電博會”與“軟博會”雙展會利好條件的加持下，既可以發(fā)揮展會拉動人流、信息流、資金流實現(xiàn)快速交互流動的作用，繼而推動區(qū)域經(jīng)濟良性發(fā)展；又可以聚
Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

圖片來源：圖蟲創(chuàng)意日前，Meta創(chuàng)始人兼CEO 馬克·扎克伯發(fā)布公開信，宣布Meta計劃裁員超11000人，占其員工總數(shù)13%。他公開承認了自己的預判失誤：“不僅

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

PySpark常見類庫及名詞解釋

PySpark核心類

Spark的基本概念

RDD操作的兩種類型

PySpark - MLlib

總結

紅魔電競平板評測：大屏幕硬實力

太卷！Redmi MAX 100英寸電視便宜了：12999元買Redmi史上最大屏

在線圖片編輯器，支持PSD解析、AI摳圖等

慕巖炮轟抖音，百合網(wǎng)今何在？

華為將推出盤古數(shù)字人大模型可幫助用戶12小時完成數(shù)字人生成

2納米決戰(zhàn)2025

與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開天N7系列

電博會與軟博會實現(xiàn)"線下+云端"的雙線融合

Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

最新推薦

猜你喜歡

熱門推薦

相關資訊