日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 軟件

PySpark常見類庫及名詞解釋

來源: 責(zé)編: 時間:2023-12-22 09:35:51 240觀看
導(dǎo)讀哈嘍大家好,我是了不起。PySpark是一個非常復(fù)雜的系統(tǒng),我們初次接觸就會感覺有很多的名詞或者簡稱,今天就帶大家看一下常見的類庫和名詞的解釋,也是方便大家統(tǒng)一收藏,方便后續(xù)查找,先了解單一名詞的解釋,有利于快速的理解整

哈嘍大家好,我是了不起。yzc28資訊網(wǎng)——每日最新資訊28at.com

PySpark是一個非常復(fù)雜的系統(tǒng),我們初次接觸就會感覺有很多的名詞或者簡稱,今天就帶大家看一下常見的類庫和名詞的解釋,也是方便大家統(tǒng)一收藏,方便后續(xù)查找,先了解單一名詞的解釋,有利于快速的理解整個PySpark的運(yùn)行機(jī)制。yzc28資訊網(wǎng)——每日最新資訊28at.com

yzc28資訊網(wǎng)——每日最新資訊28at.com

PySpark核心類

  • pyspark.SparkContext: Spark 庫的主要入口點(diǎn),它表示與Spark集群的一個連接,其他重要的對象都要依賴它.SparkContext存在于Driver中,是Spark功能的主要入口。代表著與Spark集群的連接,可以在集群上創(chuàng)建RDD,accumulators和廣播變量
  • pyspark.RDD: 是Spark的主要數(shù)據(jù)抽象概念,是Spark庫中定義的一個抽象類。
  • pyspark.streaming.StreamingContext 一個定義在Spark Streaming庫中定義的類, 每一個Spark Streaming 應(yīng)用都必須創(chuàng)建這個類
  • pyspark.streaming.DStrem:離散數(shù)據(jù)流,是Spark Streaming處理數(shù)據(jù)流的主要對象
  • pyspark.sql.SparkSession: 是DataFrame和SQL函數(shù)的主要入口點(diǎn)。
  • pyspark.sql.DataFrame: 是Spark SQL的主要抽象對象,若干行的分布式數(shù)據(jù),每一行都要若干個有名字的列。跟R/Python中的DataFrame 相像,有著更豐富的優(yōu)化。DataFrame可以有很多種方式進(jìn)行構(gòu)造,例如:結(jié)構(gòu)化數(shù)據(jù)文件,Hive的table, 外部數(shù)據(jù)庫,RDD。
  • pyspark.sql.Column DataFrame 的列表達(dá).
  • pyspark.sql.Row DataFrame的行數(shù)據(jù)

Spark的基本概念

Application由多個Job組成,Job由多個Stage組成,Stage由多個Task組成。Stage是作業(yè)調(diào)度的基本單位。yzc28資訊網(wǎng)——每日最新資訊28at.com

  • RDD:是彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset)的簡稱,是分布式內(nèi)存的一個抽象概念,提供了一種高度受限的共享內(nèi)存模型。
  • DAG:是Directed Acyclic Graph(有向無環(huán)圖)的簡稱,反映RDD之間的依賴關(guān)系。
  • Driver Program:控制程序,負(fù)責(zé)為Application構(gòu)建DAG圖。
  • Cluster Manager:集群資源管理中心,負(fù)責(zé)分配計算資源。
  • Worker Node:工作節(jié)點(diǎn),負(fù)責(zé)完成具體計算。
  • Executor:是運(yùn)行在工作節(jié)點(diǎn)(Worker Node)上的一個進(jìn)程,負(fù)責(zé)運(yùn)行Task,并為應(yīng)用程序存儲數(shù)據(jù)。
  • Application:用戶編寫的Spark應(yīng)用程序,一個Application包含多個Job。
  • Job:作業(yè),一個Job包含多個RDD及作用于相應(yīng)RDD上的各種操作。
  • Stage:階段,是作業(yè)的基本調(diào)度單位,一個作業(yè)會分為多組任務(wù),每組任務(wù)被稱為“階段”。
  • Task:任務(wù),運(yùn)行在Executor上的工作單元,是Executor中的一個線程。

RDD操作的兩種類型

RDD的操作有兩種類型,即Transformation操作和Action操作。轉(zhuǎn)換操作是從已經(jīng)存在的RDD創(chuàng)建一個新的RDD,而行動操作是在RDD上進(jìn)行計算后返回結(jié)果到 Driver。yzc28資訊網(wǎng)——每日最新資訊28at.com

(1) Transformation操作:yzc28資訊網(wǎng)——每日最新資訊28at.com

用于對RDD的創(chuàng)建,還包括大量的操作方法,如map、filter、groupBy、join等,RDD利用這些操作生成新的RDD。yzc28資訊網(wǎng)——每日最新資訊28at.com

transformation都具有 Lazy 特性,即 Spark 不會立刻進(jìn)行實(shí)際的計算,只會記錄執(zhí)行的軌跡,只有觸發(fā)Action操作的時候,它才會根據(jù) DAG 圖真正執(zhí)行。yzc28資訊網(wǎng)——每日最新資訊28at.com

(2) action操作:yzc28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)執(zhí)行部分,通過執(zhí)行count、reduce、collect等真正執(zhí)行數(shù)據(jù)的計算。RDD的lazy模式,使得大部分前期工作都在transformation時已經(jīng)完成。yzc28資訊網(wǎng)——每日最新資訊28at.com

PySpark - MLlib

Apache Spark提供了一個名為MLlib的機(jī)器學(xué)習(xí)API。PySpark也在Python中使用這個機(jī)器學(xué)習(xí)API。它支持不同類型的算法。yzc28資訊網(wǎng)——每日最新資訊28at.com

  • mllib.classification - spark.mllib包支持二進(jìn)制分類,多類分類和回歸分析的各種方法。分類中一些最流行的算法是Random Forest, Naive Bayes, Decision Tree等。
  • mllib.clustering - 聚類是一種無監(jiān)督的學(xué)習(xí)問題,您可以根據(jù)某些相似概念將實(shí)體的子集彼此分組。
  • mllib.fpm - 頻繁模式匹配是挖掘頻繁項,項集,子序列或其他子結(jié)構(gòu),這些通常是分析大規(guī)模數(shù)據(jù)集的第一步。多年來,這一直是數(shù)據(jù)挖掘領(lǐng)域的一個活躍的研究課題。
  • mllib.linalg - 線性代數(shù)的MLlib實(shí)用程序。
  • mllib.recommendation - 協(xié)同過濾通常用于推薦系統(tǒng)。這些技術(shù)旨在填寫用戶項關(guān)聯(lián)矩陣的缺失條目。
  • spark.mllib - 它目前支持基于模型的協(xié)同過濾,其中用戶和產(chǎn)品由一小組可用于預(yù)測缺失條目的潛在因素描述。spark.mllib使用交替最小二乘(ALS)算法來學(xué)習(xí)這些潛在因素。
  • mllib.regression - 線性回歸屬于回歸算法族。回歸的目標(biāo)是找到變量之間的關(guān)系和依賴關(guān)系。使用線性回歸模型和模型摘要的界面類似于邏輯回歸案例。

總結(jié)

今天給大家?guī)淼氖荘ySpark常見類庫和名詞解釋,了解這些最基礎(chǔ)的名詞以后,我們看大段的相關(guān)資料就不會犯難了。yzc28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-51821-0.htmlPySpark常見類庫及名詞解釋

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: C++實(shí)現(xiàn)鏈表:原理、代碼與解析

下一篇: 14張圖巧妙的理解數(shù)據(jù)結(jié)構(gòu)

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 灵武市| 琼结县| 仲巴县| 贞丰县| 汉川市| 石城县| 宁国市| 通化县| 高青县| 西充县| 英德市| 辽阳县| 本溪| 霍州市| 正安县| 鄂托克前旗| 张家港市| 嘉定区| 景洪市| 伽师县| 嘉荫县| 鹤庆县| 锦州市| 胶州市| 墨竹工卡县| 沛县| 三门县| 静安区| 游戏| 白山市| 察隅县| 荆门市| 肥东县| 佛学| 西昌市| 临沧市| 乐至县| 五台县| 乌兰县| 连城县| 伊金霍洛旗|