AI時(shí)代,如何用好大模型是當(dāng)前各行各業(yè)矚目的焦點(diǎn)。向量數(shù)據(jù)庫作為大模型“記憶體”,不僅能夠?yàn)槠涮峁?shù)據(jù)存儲,而且能通過數(shù)據(jù)檢索、分析讓大模型進(jìn)行知識增強(qiáng),成為生成式AI應(yīng)用開發(fā)新范式的重要組成部分。
用圖片搜索圖片或者文本搜索文本時(shí),在數(shù)據(jù)庫中存儲和對比的并不是圖片和視頻片段,而是通過深度學(xué)習(xí)等算法將其提取出來的“特征”,“特征”提取的過程稱為Embedding,提取出的“特征”用數(shù)學(xué)中的向量來表示。向量化的目的是為了通過向量相似來進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的檢索,向量化后的數(shù)據(jù)才能夠被AI模型更好的理解使用。向量數(shù)據(jù)庫就是用于生產(chǎn)、存儲、索引和分析來自機(jī)器學(xué)習(xí)模型產(chǎn)生的海量向量數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)。其典型應(yīng)用場景比如:基于大語言模型的智能客服、基于企業(yè)知識庫的問答以及Chatdoc等工具應(yīng)用。
火山引擎向量數(shù)據(jù)庫技術(shù)演進(jìn)之路
● 存算分離的分布式架構(gòu)搭建
在抖音集團(tuán)內(nèi)部,早期的向量化檢索引擎是圍繞搜索、推薦、廣告業(yè)務(wù)來構(gòu)建的,由于這些業(yè)務(wù)天然具有極大的數(shù)據(jù)規(guī)模,因此從一開始,就需要思考如何在向量索引中支持百億數(shù)據(jù)的檢索需求,比如圖蟲擁有幾億圖片素材,數(shù)量規(guī)模早已超出單機(jī)內(nèi)存的極限,舉個(gè)例子,對于1億條128維的Float向量,不考慮任何輔助結(jié)構(gòu),就需要100000000* 128 * 4 bytes 也就是約48GB的服務(wù)器內(nèi)存。
研發(fā)團(tuán)隊(duì)設(shè)計(jì)了一套存算分離的分布式系統(tǒng)架構(gòu),來進(jìn)行向量數(shù)據(jù)的分片和分布式編排,通過向量存儲、批式構(gòu)建和實(shí)時(shí)在線檢索,解決一份向量多個(gè)索引、支持多個(gè)場景的問題,同時(shí),還能夠節(jié)省索引構(gòu)建資源,加快索引構(gòu)建,使在線檢索服務(wù)穩(wěn)定性得到明顯提升。對于用戶來講,在抖音上搜索內(nèi)容則會又快又準(zhǔn)。
本文鏈接:http://www.www897cc.com/showinfo-45-1997-0.html抖音大規(guī)模實(shí)踐,火山引擎向量數(shù)據(jù)庫對外開放服務(wù)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
下一篇: 百度百科聯(lián)合科普中國發(fā)布知識大數(shù)據(jù)報(bào)告,快來圍觀網(wǎng)友都在關(guān)注什么