當前位置：首頁 > 科技 > 軟件

場景題：海量數據如何判重？

來源：責編：時間：2023-09-18 21:40:03 325觀看

導讀在海量數據如何確定一個值是否存在？這是一道非常經典的面試場景題。那怎么回答這個問題呢？接下來咱們就詳細的聊一聊。參考答案判斷一個值是否存在？通常有以下兩種解決方案：使用哈希表：可以將數據進行哈希操作，將數據存儲在

在海量數據如何確定一個值是否存在？這是一道非常經典的面試場景題。

那怎么回答這個問題呢？接下來咱們就詳細的聊一聊。

參考答案

判斷一個值是否存在？通常有以下兩種解決方案：

使用哈希表：可以將數據進行哈希操作，將數據存儲在相應的桶中。查詢時，根據哈希值定位到對應的桶，然后在桶內進行查找。這種方法的時間復雜度為 O(1)，但需要額外的存儲空間來存儲哈希表。如果桶中存在數據，則說明此值已存在，否則說明未存在。
使用布隆過濾器：布隆過濾器是一種概率型數據結構，用于判斷一個元素是否在集合中。它利用多個哈希函數映射數據到一個位數組，并將對應位置置為 1。查詢時，只需要對待查詢的數據進行哈希，并判斷對應的位是否都為 1。如果都為 1，則該數據可能存在；如果有一個位不為 1，則該數據一定不存在。布隆過濾器的查詢時間復雜度為 O(k)，其中 k 為哈希函數的個數。

相同點和不同點

它們兩的相同點是：它們都存在誤判的情況。例如，使用哈希表時，不同元素的哈希值可能相同，所以這樣就產生誤判了；而布隆過濾器的特征是，當布隆過濾器說，某個數據存在時，這個數據可能不存在；當布隆過濾器說，某個數據不存在時，那么這個數據一定不存在。

它們兩的區(qū)別主要有以下幾點：

存儲機制：哈希表使用一個數組來存儲鍵值對，通過哈希函數將鍵映射到數組的索引位置，然后將值存儲在對應的位置上。而布隆過濾器則使用一個位數組（或位向量），通過多個哈希函數將元素映射到位數組的多個位上。
查詢操作：哈希表在進行查詢時，通過計算哈希值來定位鍵值對的存儲位置，然后直接獲取對應的值。查詢時間復雜度通常為 O(1)。布隆過濾器在進行查詢時，也通過多個哈希函數計算多個位，然后判斷對應的位是否都為 1 來確定元素是否存在。查詢時間復雜度為 O(k)，其中 k 為哈希函數的個數。
內存占用：哈希表需要根據數據規(guī)模來動態(tài)調整數組的大小，以保證存儲效率。而布隆過濾器在預先設置位數組的大小后，不會隨數據規(guī)模的增加而增長。因此布隆過濾器更適用于海量數據。

結論

哈希表和布隆過濾器都能實現判重，但它們都會存在誤判的情況，但布隆過濾器存儲占用的空間更小，更適合海量數據的判重。

布隆過濾器實現原理

布隆過濾器的實現，主要依靠的是它數據結構中的一個位數組，每次存儲鍵值的時候，不是直接把數據存儲在數據結構中，因為這樣太占空間了，它是利用幾個不同的無偏哈希函數，把此元素的 hash 值均勻的存儲在位數組中，也就是說，每次添加時會通過幾個無偏哈希函數算出它的位置，把這些位置設置成 1 就完成了添加操作。

當進行元素判斷時，查詢此元素的幾個哈希位置上的值是否為 1，如果全部為 1，則表示此值存在，如果有一個值為 0，則表示不存在。因為此位置是通過 hash 計算得來的，所以即使這個位置是 1，并不能確定是那個元素把它標識為 1 的，因此布隆過濾器查詢此值存在時，此值不一定存在，但查詢此值不存在時，此值一定不存在。

并且當位數組存儲值比較稀疏的時候，查詢的準確率越高，而當位數組存儲的值越來越多時，誤差也會增大。

位數組和 key 之間的關系，如下圖所示：

如何實現布隆過濾器？

布隆過濾器的實現通常有以下兩種方案：

通過程序實現（內存級別方案）：使用 Google Guava 庫和 Apache Commons 庫實現布隆過濾器。
通過中間件實現（支持數據持久化）：使用 Redis 4.0 之后提供的布隆過濾插件來實現，它的好處是支持持久化，數據不會丟失。

Guava 實現布隆過濾器

使用 Google Guava 庫實現布隆過濾器總共分為以下兩步：

引入 Guava 依賴
使用 Guava API 操作布隆過濾器

具體實現如下。

① 引入 Guava 依賴

<dependency>    <groupId>com.google.guava</groupId>    <artifactId>guava</artifactId></dependency>

② 使用 Guava API

import com.google.common.hash.BloomFilter;import com.google.common.hash.Funnels;public class BloomFilterExample {    public static void main(String[] args) {        // 創(chuàng)建一個布隆過濾器，設置期望插入的數據量為10000，期望的誤判率為0.01        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.unencodedCharsFunnel(), 10000, 0.01);        // 向布隆過濾器中插入數據        bloomFilter.put("data1");        bloomFilter.put("data2");        bloomFilter.put("data3");        // 查詢元素是否存在于布隆過濾器中        System.out.println(bloomFilter.mightContain("data1")); // true        System.out.println(bloomFilter.mightContain("data4")); // false    }}

在上述示例中，我們通過 BloomFilter.create() 方法創(chuàng)建一個布隆過濾器，指定了元素序列化方式、期望插入的數據量和期望的誤判率。然后，我們可以使用 put() 方法向布隆過濾器中插入數據，使用 mightContain() 方法來判斷元素是否存在于布隆過濾器中。

小結

在海量數據如何確定一個值是否存在？通常有兩種解決方案：哈希表和布隆過濾器，而它們兩都存在誤判的情況，但布隆過濾器更適合海量數據的判斷，因為它占用的數據空間更小。布隆過濾器的特征是：當布隆過濾器說，某個數據存在時，這個數據可能不存在；當布隆過濾器說，某個數據不存在時，那么這個數據一定不存在。

本文鏈接：http://www.www897cc.com/showinfo-26-10404-0.html場景題：海量數據如何判重？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： IDC下調中國政務云整體市場5年復合增長率至16.14%

下一篇：性能測試的需求分析

標簽：

熱門焦點

vivo TWS Air開箱體驗：真輕臻好聽

在vivo S15系列新機的發(fā)布會上，vivo的最新款真無線藍牙耳機vivo TWS Air也一同發(fā)布，本次就這款耳機新品給大家?guī)硪粋€簡單的分享。外包裝盒上，vivo TWS Air保持了vivo自家產
深度探索 Elasticsearch 8.X：function_score 參數解讀與實戰(zhàn)案例分析

在 Elasticsearch 中，function_score 可以讓我們在查詢的同時對搜索結果進行自定義評分。function_score 提供了一系列的參數和函數讓我們可以根據需求靈活地進行設置。近期
一篇文章帶你了解 CSS 屬性選擇器

屬性選擇器對帶有指定屬性的 HTML 元素設置樣式。可以為擁有指定屬性的 HTML 元素設置樣式，而不僅限于 class 和 id 屬性。一、了解屬性選擇器CSS屬性選擇器提供了一種簡單而
使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執(zhí)行的問題

1、前言在我們使用 Selenium 進行 UI 自動化測試時，常常會因為瀏覽器驅動與瀏覽器版本不匹配，而導致自動化測試無法執(zhí)行，需要手動去下載對應的驅動版本，并替換原有的驅動，可能還
破圈是B站頭上的緊箍咒

來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之每年的暑期檔都少不了瞄準追劇女孩們的古偶劇集，2021年有優(yōu)酷的《山河令》，2022年有愛奇藝的《蒼蘭訣》，今年卻輪到小破站抓住了追
“又被陳思誠騙了”

作者｜張思齊出品｜眾面（ID：ZhongMian_ZM）如今的國產懸疑電影，成了陳思誠的天下。最近大爆電影《消失的她》票房突破30億斷層奪魁暑期檔，陳思誠再度風頭無兩。你可以說陳思誠的
iQOO Neo8系列或定檔5月23日：首發(fā)天璣9200+ 安卓跑分王者

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經上市便受到了用戶的廣泛關注。在時隔半年后，
榮耀Magicbook V 14 2021曙光藍版本正式開售，擁有觸摸屏

榮耀 Magicbook V 14 2021 曙光藍版本正式開售，搭載 i7-11390H 處理器與 MX450 顯卡，配備 16GB 內存與 512GB SSD，重 1.48kg，厚 14.5mm，具有 1.5mm 鍵盤鍵程、
親歷馬斯克血洗Twitter，硅谷的苦日子在后頭

文/劉哲銘　　編輯/李薇　　馬斯克再次揮下裁員大刀。　　美國時間11月14日，Twitter約4400名外包員工遭解雇，此次被解雇的員工的主要工作為內容審核等。此前，T

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

場景題：海量數據如何判重？

參考答案

相同點和不同點

結論

布隆過濾器實現原理

如何實現布隆過濾器？

Guava 實現布隆過濾器

① 引入 Guava 依賴

② 使用 Guava API

小結

vivo TWS Air開箱體驗：真輕臻好聽

深度探索 Elasticsearch 8.X：function_score 參數解讀與實戰(zhàn)案例分析

一篇文章帶你了解 CSS 屬性選擇器

使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執(zhí)行的問題

破圈是B站頭上的緊箍咒

“又被陳思誠騙了”

iQOO Neo8系列或定檔5月23日：首發(fā)天璣9200+ 安卓跑分王者

榮耀Magicbook V 14 2021曙光藍版本正式開售，擁有觸摸屏

親歷馬斯克血洗Twitter，硅谷的苦日子在后頭

最新推薦

猜你喜歡

熱門推薦

相關資訊