日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 知識百科

如何打造一款極速數據湖分析引擎

來源: 責編: 時間:2023-08-07 16:29:59 246觀看
導讀 前言隨著數字產業化和產業數字化成為經濟驅動的重要動力,企業的數據分析場景越來越豐富,對數據分析架構的要求也越來越高。新的數據分析場景催生了新的需求,主要包括三個方面:用

前言IRB28資訊網——每日最新資訊28at.com

隨著數字產業化和產業數字化成為經濟驅動的重要動力,企業的數據分析場景越來越豐富,對數據分析架構的要求也越來越高。新的數據分析場景催生了新的需求,主要包括三個方面:IRB28資訊網——每日最新資訊28at.com

用戶希望用更加低廉的成本,更加實時的方式導入并存儲任何數量的關系數據數據(例如,來自業務線應用程序的運營數據庫和數據)和非關系數據(例如,來自移動應用程序、IoT 設備和社交媒體的運營數據庫和數據)用戶希望自己的數據資產受到嚴密的保護用戶希望數據分析的速度變得更快、更靈活、更實時IRB28資訊網——每日最新資訊28at.com

數據湖的出現很好的滿足了用戶的前兩個需求,它允許用戶導入任何數量的實時獲得的數據。用戶可以從多個來源收集數據,并以其原始形式存儲到數據湖中。數據湖擁有極高的水平擴展能力,使得用戶能夠存儲任何規模的數據。同時其底層通常使用廉價的存儲方案,使得用戶存儲數據的成本大大降低。數據湖通過敏感數據識別、分級分類、隱私保護、資源權限控制、數據加密傳輸、加密存儲、數據風險識別以及合規審計等措施,幫助用戶建立安全預警機制,增強整體安全防護能力,讓數據可用不可得和安全合規。IRB28資訊網——每日最新資訊28at.com

為了進一步滿足用戶對于數據湖分析的要求,我們需要一套適用于數據湖的分析引擎,能夠在更短的時間內從更多來源利用更多數據,并使用戶能夠以不同方式協同處理和分析數據,從而做出更好、更快的決策。本篇文章將向讀者詳細揭秘這樣一套數據湖分析引擎的關鍵技術,并通過StarRocks 來幫助用戶進一步理解系統的架構。IRB28資訊網——每日最新資訊28at.com

之后我們會繼續發表兩篇文章,來更詳細地介紹極速數據湖分析引擎的內核和使用案例:IRB28資訊網——每日最新資訊28at.com

代碼走讀篇:通過走讀 StarRocks 這個開源分析型數據庫內核的關鍵數據結構和算法,幫助讀者進一步理解極速數據湖分析引擎的原理和具體實現。Case Study 篇:介紹大型企業如何使用 StarRocks 在數據湖上實時且靈活的洞察數據的價值,從而幫助業務進行更好的決策,幫助讀者進一步理解理論是如何在實際場景落地的。什么是數據湖IRB28資訊網——每日最新資訊28at.com

什么是數據湖,根據 Wikipedia 的定義,“A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files”。通俗來說可以將數據湖理解為在廉價的對象存儲或分布式文件系統之上包了一層,使這些存儲系統中離散的 object 或者 file 結合在一起對外展現出一個統一的語義,例如關系型數據庫常見的“表”語義等。IRB28資訊網——每日最新資訊28at.com

了解完數據湖的定義之后,我們自然而然地想知道數據湖能為我們提供什么獨特的能力,我們為什么要使用數據湖?IRB28資訊網——每日最新資訊28at.com

在數據湖這個概念出來之前,已經有很多企業或組織大量使用 HDFS 或者 S3 來存放業務日常運作中產生的各式各樣的數據(例如一個制作 APP 的公司可能會希望將用戶所產生的點擊事件事無巨細的記錄)。因為這些數據的價值不一定能夠在短時間內被發現,所以找一個廉價的存儲系統將它們暫存,期待在將來的一天這些數據能派上用場的時候再從中將有價值的信息提取出來。然而 HDFS 和 S3 對外提供的語義畢竟比較單一(HDFS 對外提供文件的語義,S3對外提供對象的語義),隨著時間的推移工程師們可能都無法回答他們到底在這里面存儲了些什么數據。為了防止后續使用數據的時候必須將數據一一解析才能理解數據的含義,聰明的工程師想到將定義一致的數據組織在一起,然后再用額外的數據來描述這些數據,這些額外的數據被稱之為“元”數據,因為他們是描述數據的數據。這樣后續通過解析元數據就能夠回答這些數據的具體含義。這就是數據湖最原始的作用。IRB28資訊網——每日最新資訊28at.com

隨著用戶對于數據質量的要求越來越高,數據湖開始豐富其他能力。例如為用戶提供類似數據庫的 ACID 語義,幫助用戶在持續寫入數據的過程中能夠拿到 point-in-time 的視圖,防止讀取數據過程中出現各種錯誤。或者是提供用戶更高性能的數據導入能力等,發展到現在,數據湖已經從單純的元數據管理變成現在擁有更加豐富,更加類似數據庫的語義了。IRB28資訊網——每日最新資訊28at.com

用一句不太準確的話描述數據湖,就是一個存儲成本更廉價的“AP 數據庫”。但是數據湖僅僅提供數據存儲和組織的能力,一個完整的數據庫不僅要有數據存儲的能力,還需要有數據分析能力。因此怎么為數據湖打造一款高效的分析引擎,為用戶提供洞察數據的能力,將是本文所要重點闡述的部分。下面通過如下幾個章節一起逐步拆解一款現代的 OLAP 分析引擎的內部構造和實現:IRB28資訊網——每日最新資訊28at.com

怎么在數據湖上進行極速分析現代數據湖分析引擎的架構怎么在數據湖上進行極速分析?IRB28資訊網——每日最新資訊28at.com

從這一節開始,讓我們開始回到數據庫課程,一個用于數據湖的分析引擎和一個用于數據庫的分析引擎在架構上別無二致,通常我們認為都會分為下面幾個部分:IRB28資訊網——每日最新資訊28at.com

Parser:將用戶輸入的查詢語句解析成一棵抽象語法樹Analyzer:分析查詢語句的語法和語義是否正確,符合定義Optimizer:為查詢生成性能更高、代價更低的物理查詢計劃Execution Engine:執行物理查詢計劃,收集并返回查詢結果IRB28資訊網——每日最新資訊28at.com

對于一個數據湖分析引擎而言,Optimizer 和 Execution Engine 是影響其性能兩個核心模塊,下面我們將從三個維度入手,逐一拆解這兩個模塊的核心技術原理,并通過不同技術方案的對比,幫助讀者理解一個現代的數據湖分析引擎的始末。IRB28資訊網——每日最新資訊28at.com

RBO vs CBOIRB28資訊網——每日最新資訊28at.com

基本上來講,優化器的工作就是對給定的一個查詢,生成查詢代價最低(或者相對較低)的執行計劃。不同的執行計劃性能會有成千上萬倍的差距,查詢越復雜,數據量越大,查詢優化越重要。IRB28資訊網——每日最新資訊28at.com

Rule Based Optimization (RBO) 是傳統分析引擎常用的優化策略。RBO 的本質是核心是基于關系代數的等價變換,通過一套預先制定好的規則來變換查詢,從而獲得代價更低的執行計劃。常見的 RBO 規則謂詞下推、Limit 下推、常量折疊等。在 RBO 中,有著一套嚴格的使用規則,只要你按照規則去寫查詢語句,無論數據表中的內容怎樣,生成的執行計劃都是固定的。但是在實際的業務環境中,數據的量級會嚴重影響查詢的性能,而 RBO 是沒法通過這些信息來獲取更優的執行計劃。IRB28資訊網——每日最新資訊28at.com

為了解決 RBO 的局限性,Cost Based Optimization (CBO) 的優化策略應運而生。CBO 通過收集數據的統計信息來估算執行計劃的代價,這些統計信息包括數據集的大小,列的數量和列的基數等信息。舉個例子,假設我們現在有三張表 A,B 和 C,在進行 A join B join C 的查詢時如果沒有對應的統計信息我們是無法判斷不同 join 的執行順序代價上的差異。如果我們收集到這三張表的統計信息,發現 A 表和 B 表的數據量都是 1M 行,但是 C 表的 數據量僅為 10 行,那么通過先執行 B join C 可以大大減少中間結果的數據量,這在沒有統計信息的情況下基本不可能判斷。IRB28資訊網——每日最新資訊28at.com

隨著查詢復雜度的增加,執行計劃的狀態空間會變的非常巨大。刷過算法題的小伙伴都知道,一旦狀態空間非常大,通過暴力搜索的方式是不可能 AC 的,這時候一個好的搜索算法格外重要。通常 CBO 使用動態規劃算法來得到最優解,并且減少重復計算子空間的代價。當狀態空間達到一定程度之后,我們只能選擇貪心算法或者其他一些啟發式算法來得到局部最優。本質上搜索算法是一種在搜索時間和結果質量做 trade-off 的方法。IRB28資訊網——每日最新資訊28at.com

IRB28資訊網——每日最新資訊28at.com

(常見 CBO 實現架構)IRB28資訊網——每日最新資訊28at.com

Record Oriented vs Block OrientedIRB28資訊網——每日最新資訊28at.com

執行計劃可以認為是一串 operator(關系代數的運算符)首尾相連串起來的執行流,前一個 operator 的 output 是下一個 operator 的 input。傳統的分析引擎是 Row Oriented 的,也就是說 operator 的 output 和 input 是一行一行的數據。IRB28資訊網——每日最新資訊28at.com

舉一個簡單的例子,假設我們有下面一個表和查詢:IRB28資訊網——每日最新資訊28at.com

CREATE TABLE t (n int, m int, o int, p int); IRB28資訊網——每日最新資訊28at.com
SELECT o FROM t WHERE m < n + 1;IRB28資訊網——每日最新資訊28at.com

例子來源:GitHub - jordanlewis/exectoyIRB28資訊網——每日最新資訊28at.com

上述查詢語句展開為執行計劃的時候大致如下圖所示:IRB28資訊網——每日最新資訊28at.com

IRB28資訊網——每日最新資訊28at.com

通常情況下,在 Row Oriented 的模型中,執行計劃的執行過程可以用如下偽碼表示:IRB28資訊網——每日最新資訊28at.com

next: IRB28資訊網——每日最新資訊28at.com
for: IRB28資訊網——每日最新資訊28at.com
row = source.next() IRB28資訊網——每日最新資訊28at.com
if filterExpr.Eval(row): IRB28資訊網——每日最新資訊28at.com
// return a new row containing just column o IRB28資訊網——每日最新資訊28at.com
returnedRow row IRB28資訊網——每日最新資訊28at.com
for col in selectedCols: IRB28資訊網——每日最新資訊28at.com
returnedRow.append(row[col]) IRB28資訊網——每日最新資訊28at.com
return returnedRowIRB28資訊網——每日最新資訊28at.com

根據 DBMSs On A Modern Processor: Where Does Time Go? 的評估,這種執行方式存在大量的 L2 data stalls 和 L1 I-cache stalls、分支預測的效率低等問題。IRB28資訊網——每日最新資訊28at.com

隨著磁盤等硬件技術的蓬勃發展,各種通過 CPU 換 IO 的壓縮算法、Encoding 算法和存儲技術的廣泛使用,CPU 的性能逐漸成為成為分析引擎的瓶頸。為了解決 Row Oriented 執行所存在的問題,學術界開始思考解決方案,Block oriented processing of Relational Database operations in modern Computer Architectures 這篇論文提出使用按 block 的方式在 operator 之間傳遞數據,能夠平攤條件檢查和分支預測的工作的耗時,MonetDB/X100: Hyper-Pipelining Query Execution 在此基礎上更進一步,提出將通過將數據從原來的 Row Oriented,改變成 Column Oriented,進一步提升 CPU Cache 的效率,也更有利于編譯器進行優化。在 Column Oriented 的模型中,執行計劃的執行過程可以用如下偽碼表示:IRB28資訊網——每日最新資訊28at.com

// first create an n + 1 result, for all values in the n column IRB28資訊網——每日最新資訊28at.com
projPlusIntIntConst.Next(): IRB28資訊網——每日最新資訊28at.com
batch = source.Next() IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
for i < batch.n: IRB28資訊網——每日最新資訊28at.com
outCol[i] = intCol[i] + constArg IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
return batch IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
// then, compare the new column to the m column, putting the result into IRB28資訊網——每日最新資訊28at.com
// a selection vector: a list of the selected indexes in the column batch IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
selectLTIntInt.Next(): IRB28資訊網——每日最新資訊28at.com
batch = source.Next() IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
for i < batch.n: IRB28資訊網——每日最新資訊28at.com
if int1Col < int2Col: IRB28資訊網——每日最新資訊28at.com
selectionVector.append(i) IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
return batch with selectionVector IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
// finally, we materialize the batch, returning actual rows to the user, IRB28資訊網——每日最新資訊28at.com
// containing just the columns requested: IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
materialize.Next(): IRB28資訊網——每日最新資訊28at.com
batch = source.Next() IRB28資訊網——每日最新資訊28at.com
IRB28資訊網——每日最新資訊28at.com
for s < batch.n: IRB28資訊網——每日最新資訊28at.com
i = selectionVector[i] IRB28資訊網——每日最新資訊28at.com
returnedRow row IRB28資訊網——每日最新資訊28at.com
for col in selectedCols: IRB28資訊網——每日最新資訊28at.com
returnedRow.append(cols[col][i]) IRB28資訊網——每日最新資訊28at.com
yield returnedRowIRB28資訊網——每日最新資訊28at.com

可以看到,Column Oriented 擁有更好的數據局部性和指令局部性,有利于提高 CPU Cache 的命中率,并且編譯器更容易執行 SIMD 優化等。IRB28資訊網——每日最新資訊28at.com

Pull Based vs Push BasedIRB28資訊網——每日最新資訊28at.com

數據庫系統中,通常是將輸入的 SQL 語句轉化為一系列的算子,然后生成物理執行計劃用于實際的計算并返回結果。在生成的物理執行計劃中,通常會對算子進行 pipeline。常見的 pipeline 方式通常有兩種:IRB28資訊網——每日最新資訊28at.com

基于數據驅動的 Push Based 模式,上游算子推送數據到下游算子基于需求的 Pull Based 模式,下游算子主動從上游算子拉取數據。經典的火山模型就是 Pull Based 模式。IRB28資訊網——每日最新資訊28at.com

Push Based 的執行模式提高了緩存效率,能夠更好地提升查詢性能。IRB28資訊網——每日最新資訊28at.com

IRB28資訊網——每日最新資訊28at.com

參考:Push vs. Pull-Based Loop Fusion in Query EnginesIRB28資訊網——每日最新資訊28at.com

現代數據湖分析引擎的架構IRB28資訊網——每日最新資訊28at.com

通過上一節的介紹,相信讀者已經對數據湖分析引擎的前沿理論有了相應了解。在本節中,我們以 StarRocks 為例,進一步介紹數據湖分析引擎是怎么有機的結合上述先進理論,并且通過優雅的系統架構將其呈現給用戶。IRB28資訊網——每日最新資訊28at.com

IRB28資訊網——每日最新資訊28at.com

如上圖所示,StarRocks 的架構非常簡潔,整個系統的核心只有 Frontend (FE)、Backend (BE) 兩類進程,不依賴任何外部組件,方便部署與維護。其中 FE 主要負責解析查詢語句(SQL),優化查詢以及查詢的調度,而 BE 則主要負責從數據湖中讀取數據,并完成一系列的 Filter 和 Aggregate 等操作。IRB28資訊網——每日最新資訊28at.com

FrontendIRB28資訊網——每日最新資訊28at.com

IRB28資訊網——每日最新資訊28at.com

FE 的主要作用將 SQL 語句通過一系列轉化和優化,最終轉換成 BE 能夠認識的一個個 Fragment。一個不那么準確但易于理解的比喻,如果把 BE 集群當成一個分布式的線程池的話,那么 Fragment 就是線程池中的 Task。從 SQL 文本到 Fragment,FE 的主要工作包含以下幾個步驟:IRB28資訊網——每日最新資訊28at.com

SQL Parse:將 SQL 文本轉換成一個 AST(抽象語法樹)Analyze:基于 AST 進行語法和語義分析Logical Plan:將 AST 轉換成邏輯計劃Optimize:基于關系代數,統計信息,Cost 模型對邏輯計劃進行重寫,轉換,選擇出 Cost “最低” 的物理執行計劃生成 Fragment:將 Optimizer 選擇的物理執行計劃轉換為 BE 可以直接執行的 FragmentCoordinate:將 Fragment 調度到合適的 BE 上執行BackendIRB28資訊網——每日最新資訊28at.com

IRB28資訊網——每日最新資訊28at.com

BE 是 StarRocks 的后端節點,負責接收 FE 傳下來的 Fragment 執行并返回結果給 FE。StarRocks 的 BE 節點都是完全對等的,FE 按照一定策略將數據分配到對應的 BE 節點。常見的 Fragment 工作流程是讀取數據湖中的部分文件,并調用對應的 Reader (例如,適配 Parquet 文件的 Parquet Reader 和適配 ORC 文件的 ORC Reader等)解析這些文件中的數據,使用向量化執行引擎進一步過濾和聚合解析后的數據后,返回給其他 BE 或 FE。IRB28資訊網——每日最新資訊28at.com

總結IRB28資訊網——每日最新資訊28at.com

本篇文章主要介紹了極速數據湖分析引擎的核心技術原理,從多個維度對比了不同技術實現方案。IRB28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2198-0.html如何打造一款極速數據湖分析引擎

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟智能云Azure在華的第五個數據中心區域正式啟用

下一篇: 云計算開發:Python3-List extend()方法詳解

標簽:
  • 熱門焦點
  • vivo TWS Air開箱體驗:真輕 臻好聽

    在vivo S15系列新機的發布會上,vivo的最新款真無線藍牙耳機vivo TWS Air也一同發布,本次就這款耳機新品給大家帶來一個簡單的分享。外包裝盒上,vivo TWS Air保持了vivo自家產
  • CSS單標簽實現轉轉logo

    轉轉品牌升級后更新了全新的Logo,今天我們用純CSS來實現轉轉的新Logo,為了有一定的挑戰性,這里我們只使用一個標簽實現,將最大化的使用CSS能力完成Logo的繪制與動畫效果。新logo
  • Flowable工作流引擎的科普與實踐

    一.引言當我們在日常工作和業務中需要進行各種審批流程時,可能會面臨一系列技術和業務上的挑戰。手動處理這些審批流程可能會導致開發成本的增加以及業務復雜度的上升。在這
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 講故事上個月我寫過一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,當時用的是 GDIView + WinDbg 把問題搞定,前者用來定位泄露資源,后者用來定位泄露代碼,后面有朋友反
  • 一文搞定Java NIO,以及各種奇葩流

    大家好,我是哪吒。很多朋友問我,如何才能學好IO流,對各種流的概念,云里霧里的,不求甚解。用到的時候,現百度,功能雖然實現了,但是為什么用這個?不知道。更別說效率問題了~下次再遇到,
  • 本地生活這塊肥肉,拼多多也想吃一口

    出品/壹覽商業 作者/李彥編輯/木魚拼多多也看上本地生活這塊蛋糕了。近期,拼多多在App首頁&ldquo;充值中心&rdquo;入口上線了本機生活界面。壹覽商業發現,該界面目前主要
  • 華為Mate 60保護殼曝光:碩大后置相機模組 凸起程度有驚喜

    這段時間以來,關于華為新旗艦的爆料日漸密集。據此前多方爆料,今年華為將開始恢復一年雙旗艦戰略,除上半年推出的P60系列外,往年下半年的Mate系列也將
  • 3699元!iQOO Neo8 Pro頂配版今日首銷:1TB UFS 4.0同價位唯一

    5月23日,iQOO推出了全新的iQOO Neo8系列,包含iQOO Neo8和iQOO Neo8 Pro兩個版本,其中標準版搭載高通驍龍8+,而Pro版更是首發搭載了聯發科天璣9200+旗艦
  • 蘋果MacBook Pro 2021測試:仍不支持平滑滾動

    據10月30日9to5 Mac 消息報道,蘋果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后獲得了不錯的評價,亮點包括行業領先的性能,令人印象深刻的電池續航,精美豐
Top 主站蜘蛛池模板: 若羌县| 马山县| 宜宾市| 潞城市| 阿鲁科尔沁旗| 尚志市| 革吉县| 明星| 阳春市| 济源市| 利川市| 保山市| 醴陵市| 托克托县| 炉霍县| 沈阳市| 永福县| 南江县| 清水河县| 浮梁县| 峨眉山市| 金沙县| 西华县| 双流县| 元谋县| 武鸣县| 沅江市| 石嘴山市| 德钦县| 武鸣县| 同心县| 宕昌县| 遵义县| 岱山县| 瑞安市| 怀安县| 长子县| 海门市| 秀山| 襄垣县| 巴里|