日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 資訊

抖音大規(guī)模實(shí)踐,火山引擎向量數(shù)據(jù)庫對(duì)外開放服務(wù)

來源: 責(zé)編: 時(shí)間:2023-09-18 21:17:41 401觀看
導(dǎo)讀AI時(shí)代,如何用好大模型是當(dāng)前各行各業(yè)矚目的焦點(diǎn)。向量數(shù)據(jù)庫作為大模型“記憶體”,不僅能夠?yàn)槠涮峁?shù)據(jù)存儲(chǔ),而且能通過數(shù)據(jù)檢索、分析讓大模型進(jìn)行知識(shí)增強(qiáng),成為生成式AI應(yīng)用開發(fā)新范式的重要組成部分。用圖片搜索圖片

AI時(shí)代,如何用好大模型是當(dāng)前各行各業(yè)矚目的焦點(diǎn)。向量數(shù)據(jù)庫作為大模型“記憶體”,不僅能夠?yàn)槠涮峁?shù)據(jù)存儲(chǔ),而且能通過數(shù)據(jù)檢索、分析讓大模型進(jìn)行知識(shí)增強(qiáng),成為生成式AI應(yīng)用開發(fā)新范式的重要組成部分。I7R28資訊網(wǎng)——每日最新資訊28at.com

用圖片搜索圖片或者文本搜索文本時(shí),在數(shù)據(jù)庫中存儲(chǔ)和對(duì)比的并不是圖片和視頻片段,而是通過深度學(xué)習(xí)等算法將其提取出來的“特征”,“特征”提取的過程稱為Embedding,提取出的“特征”用數(shù)學(xué)中的向量來表示。向量化的目的是為了通過向量相似來進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的檢索,向量化后的數(shù)據(jù)才能夠被AI模型更好的理解使用。向量數(shù)據(jù)庫就是用于生產(chǎn)、存儲(chǔ)、索引和分析來自機(jī)器學(xué)習(xí)模型產(chǎn)生的海量向量數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)。其典型應(yīng)用場(chǎng)景比如:基于大語言模型的智能客服、基于企業(yè)知識(shí)庫的問答以及Chatdoc等工具應(yīng)用。I7R28資訊網(wǎng)——每日最新資訊28at.com

火山引擎向量數(shù)據(jù)庫技術(shù)演進(jìn)之路I7R28資訊網(wǎng)——每日最新資訊28at.com

存算分離的分布式架構(gòu)搭建I7R28資訊網(wǎng)——每日最新資訊28at.com

在抖音集團(tuán)內(nèi)部,早期的向量化檢索引擎是圍繞搜索、推薦、廣告業(yè)務(wù)來構(gòu)建的,由于這些業(yè)務(wù)天然具有極大的數(shù)據(jù)規(guī)模,因此從一開始,就需要思考如何在向量索引中支持百億數(shù)據(jù)的檢索需求,比如圖蟲擁有幾億圖片素材,數(shù)量規(guī)模早已超出單機(jī)內(nèi)存的極限,舉個(gè)例子,對(duì)于1億條128維的Float向量,不考慮任何輔助結(jié)構(gòu),就需要100000000* 128 * 4 bytes 也就是約48GB的服務(wù)器內(nèi)存。I7R28資訊網(wǎng)——每日最新資訊28at.com

研發(fā)團(tuán)隊(duì)設(shè)計(jì)了一套存算分離的分布式系統(tǒng)架構(gòu),來進(jìn)行向量數(shù)據(jù)的分片和分布式編排,通過向量存儲(chǔ)、批式構(gòu)建和實(shí)時(shí)在線檢索,解決一份向量多個(gè)索引、支持多個(gè)場(chǎng)景的問題,同時(shí),還能夠節(jié)省索引構(gòu)建資源,加快索引構(gòu)建,使在線檢索服務(wù)穩(wěn)定性得到明顯提升。對(duì)于用戶來講,在抖音上搜索內(nèi)容則會(huì)又快又準(zhǔn)。I7R28資訊網(wǎng)——每日最新資訊28at.com

圖片 1.png

● 計(jì)算內(nèi)核性能優(yōu)化I7R28資訊網(wǎng)——每日最新資訊28at.com

構(gòu)建一個(gè)企業(yè)級(jí)的向量檢索應(yīng)用,數(shù)據(jù)量可能超過億級(jí),延遲在10ms內(nèi),要求用起來更快、更穩(wěn),所以在計(jì)算框架搭建好之后,也必須關(guān)注其內(nèi)核,如何提供高性能的向量化檢索服務(wù)以滿足業(yè)務(wù)的苛刻需求。由于向量化檢索是典型的計(jì)算密集、數(shù)據(jù)密集場(chǎng)景,其優(yōu)化方向主要圍繞提升吞吐、降低服務(wù)成本、提升穩(wěn)定性開展。通過一系列性能優(yōu)化工作,如降低內(nèi)存占用、優(yōu)化索引性能、CPU指令集計(jì)算優(yōu)化、優(yōu)化過濾和重排序等業(yè)務(wù)相關(guān)的計(jì)算過程,這套架構(gòu)可以很好解決各類業(yè)務(wù)場(chǎng)景的離線和在線檢索計(jì)算需求,相同檢索精度下的吞吐和時(shí)延相比開源基線有了3倍以上的改善,且滿足大規(guī)模線上業(yè)務(wù)的穩(wěn)定性要求,因此被抖音集團(tuán)大量業(yè)務(wù)采用。I7R28資訊網(wǎng)——每日最新資訊28at.com

但因?yàn)槊總€(gè)索引搭建一套集群的成本較高,且存在配置復(fù)雜等問題,研發(fā)團(tuán)隊(duì)又對(duì)框架進(jìn)一步迭代,進(jìn)行云原生改造,實(shí)現(xiàn)組件多租戶化,提供自動(dòng)化調(diào)度能力,以降低錯(cuò)誤率,加快交付。I7R28資訊網(wǎng)——每日最新資訊28at.com

● 向量標(biāo)量混合檢索能力I7R28資訊網(wǎng)——每日最新資訊28at.com

向量數(shù)據(jù)庫用于業(yè)務(wù)場(chǎng)景時(shí),向量數(shù)據(jù)通常與結(jié)構(gòu)化數(shù)據(jù)配合使用,例如,在將文檔表示為向量的同時(shí),還需要存儲(chǔ)文檔所屬的部門,以方便在檢索時(shí)進(jìn)行權(quán)限過濾。這類需求可以抽象為使用與向量相關(guān)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行過濾,業(yè)界通常有兩種解決方案:一是后過濾,將排名top的K個(gè)結(jié)果擴(kuò)大一定倍數(shù),檢索出更多的向量,然后用結(jié)構(gòu)化數(shù)據(jù)做過濾,留下topK個(gè),這種方法適用于結(jié)構(gòu)化過濾掉的比例較低,向量召回結(jié)果比例較高的場(chǎng)景;二是先過濾,先使用DSL過濾數(shù)據(jù)集,然后在結(jié)果集中進(jìn)行向量排序,適用于DSL過濾結(jié)果較少的場(chǎng)景。I7R28資訊網(wǎng)——每日最新資訊28at.com

隨著數(shù)據(jù)量的增加,這兩種檢索鏈路的性能各有適用的場(chǎng)景,但如何在執(zhí)行時(shí)自動(dòng)找到最適合的執(zhí)行路徑呢?為此,技術(shù)團(tuán)隊(duì)又研發(fā)了DSL定向引擎,支持在檢索過程中同時(shí)進(jìn)行向量檢索和DSL過濾(結(jié)構(gòu)化過濾),具有高性能、邏輯完備、可按需終止和執(zhí)行計(jì)劃優(yōu)化等特點(diǎn)。在混合查詢性能對(duì)比行業(yè)評(píng)測(cè)中,該向量數(shù)據(jù)庫的無過濾吞吐、1%過濾吞吐和99%過濾吞吐多項(xiàng)性能均排名第一。I7R28資訊網(wǎng)——每日最新資訊28at.com

圖片 2.png

● 幫助大模型知識(shí)庫更快落地I7R28資訊網(wǎng)——每日最新資訊28at.com

大模型應(yīng)用場(chǎng)景的不斷拓寬,催生了向量數(shù)據(jù)的存儲(chǔ)、檢索需求。將企業(yè)自身數(shù)據(jù)轉(zhuǎn)化為向量數(shù)據(jù)時(shí)遇到不少困難,如何幫助業(yè)務(wù)選擇開箱即用的向量化模型,也影響到大模型應(yīng)用的落地速度。技術(shù)團(tuán)隊(duì)在知識(shí)庫、生成式AI素材管理等場(chǎng)景,開始嘗試提供預(yù)設(shè)的向量化方法以供業(yè)務(wù)選擇。大多數(shù)業(yè)務(wù)只需要選擇一個(gè)適合自身數(shù)據(jù)的向量化方法,即可用原始數(shù)據(jù)直接寫入向量數(shù)據(jù)庫,并用相同的模型將請(qǐng)求數(shù)據(jù)轉(zhuǎn)換為請(qǐng)求向量進(jìn)行查詢。I7R28資訊網(wǎng)——每日最新資訊28at.com

 向量數(shù)據(jù)庫技術(shù)全景I7R28資訊網(wǎng)——每日最新資訊28at.com

經(jīng)過長(zhǎng)期的內(nèi)部探索和優(yōu)化,抖音采用的向量數(shù)據(jù)庫產(chǎn)品結(jié)構(gòu)如下圖所示:基于云基礎(chǔ)設(shè)施,提供經(jīng)過深度打磨和優(yōu)化的各個(gè)引擎,提供從多模態(tài)數(shù)據(jù)寫入,到向量生成,再到在線檢索,以及上線后的彈性調(diào)度和監(jiān)控的一整套全鏈路解決方案。I7R28資訊網(wǎng)——每日最新資訊28at.com

圖片 3.png

火山引擎向量數(shù)據(jù)庫的場(chǎng)景化落地實(shí)踐I7R28資訊網(wǎng)——每日最新資訊28at.com

經(jīng)過抖音集團(tuán)內(nèi)部的技術(shù)實(shí)踐,向量數(shù)據(jù)庫目前已經(jīng)覆蓋50+的業(yè)務(wù)線,基本支撐了內(nèi)部所有的向量檢索場(chǎng)景,比如抖音、頭條、懂車帝、圖蟲、火山引擎Oncall智能問答和剪映等,主要的業(yè)務(wù)場(chǎng)景包括智能搜索、AIGC跨模態(tài)檢索、推薦和去重、智能問答、相關(guān)排序、聚類分析和數(shù)據(jù)挖掘等,并且多個(gè)場(chǎng)景庫規(guī)模達(dá)百億級(jí)別。I7R28資訊網(wǎng)——每日最新資訊28at.com

下面以圖蟲和火山引擎Oncall智能問答為例,展示向量數(shù)據(jù)庫的應(yīng)用實(shí)踐。I7R28資訊網(wǎng)——每日最新資訊28at.com

● 智能搜索場(chǎng)景——圖蟲的以圖搜圖I7R28資訊網(wǎng)——每日最新資訊28at.com

圖片 4.png

圖蟲提供了以圖搜圖的能力,致力于為用戶提供正版素材內(nèi)容及數(shù)字資產(chǎn)管理解決方案。目前,圖蟲創(chuàng)意在庫圖片量4.6億、高清視頻超2000萬條,每天有大量用戶來搜索、查詢圖片和視頻。億級(jí)海量數(shù)據(jù)對(duì)向量檢索服務(wù)能力提出更高要求,業(yè)務(wù)如何靈活的設(shè)置分片,當(dāng)數(shù)據(jù)量大幅增加時(shí)又如何避免重新部署集群,加快索引構(gòu)建、節(jié)約資源。I7R28資訊網(wǎng)——每日最新資訊28at.com

解決方案是提供端到端的圖片搜索能力,流程是先將圖片源數(shù)據(jù)上傳到向量數(shù)據(jù)庫,把圖片數(shù)據(jù)進(jìn)行向量化、存儲(chǔ)并形成向量索引,然后,用戶將要搜索的圖片上傳,上傳后向量化,向量化的圖片與向量數(shù)據(jù)庫進(jìn)行向量檢索比對(duì)查詢,獲取相似度最高的結(jié)果,返回給用戶。I7R28資訊網(wǎng)——每日最新資訊28at.com

● 企業(yè)知識(shí)庫場(chǎng)景——火山引擎Oncall智能問答I7R28資訊網(wǎng)——每日最新資訊28at.com

圖片 5.png

火山引擎Oncall智能問答能夠輔助一線客服、提供客戶問題回復(fù)參考。火山引擎官網(wǎng)每天會(huì)收到大量的客戶售后進(jìn)線,高峰時(shí)段人均要并行受理多個(gè)問題,需要能夠快速排查并且給出客戶反饋。對(duì)于工程師來講,面對(duì)眾多技術(shù)門檻較高的產(chǎn)品,要進(jìn)行快速理解和判斷,難度較大。I7R28資訊網(wǎng)——每日最新資訊28at.com

解決方案就是,將火山知識(shí)庫文檔和數(shù)據(jù)通過向量特征提取,然后存儲(chǔ)到向量數(shù)據(jù)庫中,應(yīng)用LLM大語言模型與向量化的知識(shí)庫檢索和比對(duì)知識(shí),構(gòu)建火山引擎Oncall智能問答,可以讓聊天機(jī)器人的回答更具專業(yè)性和時(shí)效性,構(gòu)建專屬Chatbot。未來,火山引擎Oncall的FAQ知識(shí)將持續(xù)沉淀,知識(shí)庫持續(xù)完善,同時(shí)還能提供大模型訓(xùn)練數(shù)據(jù),處理大量客戶咨詢問題,實(shí)現(xiàn)機(jī)器人自動(dòng)生成回復(fù)結(jié)果。I7R28資訊網(wǎng)——每日最新資訊28at.com

如今,向量數(shù)據(jù)庫已經(jīng)成為整個(gè)大模型生態(tài)的基礎(chǔ)設(shè)施,支撐著大模型在業(yè)界的推廣和應(yīng)用。火山引擎向量數(shù)據(jù)庫技術(shù)經(jīng)過抖音等業(yè)務(wù)的實(shí)踐打磨,已經(jīng)對(duì)外開放,賦能千行百業(yè),加速AI大模型落地應(yīng)用。未來隨著新的應(yīng)用場(chǎng)景的出現(xiàn),向量數(shù)據(jù)庫還將持續(xù)創(chuàng)新,提供更加靈活和多樣化的功能,滿足不同用戶的需求。(作者:程峻熙)I7R28資訊網(wǎng)——每日最新資訊28at.com

舉報(bào) 0收藏 0打賞 0評(píng)論 0
 
 
更多>同類資訊
  • 喜慶結(jié)婚送什么禮物好
  • 喜子訂婚禮物送什么
  • 喜提豪宅送什么禮物
  • 戲曲禮物免費(fèi)送什么
  • 戲劇表演送禮送什么禮物
  • 細(xì)心女生禮物送什么好呢
  • 戲曲生日禮物送什么
  • 峽谷生日送什么禮物好
  • 俠客風(fēng)云沈送什么禮物
  • 下班很晚送什么禮物好呢
  • 文藝淑女禮物送什么好
  • 文藝中年大叔禮物送什么
  • 文藝長(zhǎng)輩禮物送什么合適
  • 紋身生日媽媽送什么禮物
  • 紋身朋友禮物送什么合適
  • 穩(wěn)定階段送什么禮物合適
  • 紋繡送什么禮物好
  • 穩(wěn)重男人送什么禮物好看
  • 穩(wěn)重的男童送什么禮物
  • 蝸牛送的是什么禮物
點(diǎn)擊查看更多 +
全站最新
亞信科技CEO高念書應(yīng)邀出席世界計(jì)算大會(huì)開幕式及系列活動(dòng)
亞信科技CEO高念書應(yīng)邀出席世界計(jì)算大會(huì)開幕式及系列活動(dòng)
iPhone 15發(fā)布,愛租機(jī)通過支付寶推出 iPhone 訂閱新模式
iPhone 15發(fā)布,愛租機(jī)通過支付寶推出 iPhone 訂閱新模式
康奈爾大學(xué)研發(fā)小型四足機(jī)器人,能跳躍承受數(shù)十倍重量
康奈爾大學(xué)研發(fā)小型四足機(jī)器人,能跳躍承受數(shù)十倍重量
Dictador公司聘請(qǐng)機(jī)器人CEO Mika,AI在高級(jí)管理層嶄露頭角
Dictador公司聘請(qǐng)機(jī)器人CEO Mika,AI在高級(jí)管理層嶄露頭角
熱門內(nèi)容
  • 11英寸2k屏1300w后置攝像頭!FPD百元平板性價(jià)比拉滿
  • 極空間私有云召開華東地區(qū)秋季渠道研討會(huì)
  • 云上創(chuàng)新 生態(tài)共建,華為云發(fā)布“零售數(shù)字化加速伙伴計(jì)劃”
  • 上海啟封-嵌入式BI助力化工企業(yè)數(shù)字化轉(zhuǎn)型升級(jí)
  • ROG電競(jìng)顯示器強(qiáng)勢(shì)贊助《黑神話·悟空》游戲內(nèi)測(cè)線下試玩會(huì)
  • 2023中國(guó)算力大會(huì)·全光品質(zhì)運(yùn)力分論壇在銀川成功舉辦
  • 聯(lián)想聯(lián)萌看見計(jì)劃升級(jí):持續(xù)打造綠水青山 共創(chuàng)公益消費(fèi)新范式
  • vivo亮相蔡司啟迪未來探索者活動(dòng) 展示雙方聯(lián)合創(chuàng)新成果
  • 華為Mate60王者歸來,轉(zhuǎn)轉(zhuǎn)回收推出專屬品牌日助力花粉換新
  • 華為云攜手伙伴擁抱數(shù)字化,共筑零售新生態(tài)
  • 華為云張修征:打通企業(yè)數(shù)字化堵點(diǎn)卡點(diǎn),讓數(shù)字化供需更順暢
  • IFA 2023:三星SmartThings致力于滿足消費(fèi)者對(duì)于居家科技的新渴求
  • 三星于IFA 2023推出全新BESPOKE繽色鉑格AI?洗烘一體機(jī)
  • 加速通導(dǎo)融合,中國(guó)在精準(zhǔn)定位領(lǐng)域脫穎而出
  • IFA2023:三星電子展望未來生活家居愿景
本欄最新
亞信科技CEO高念書應(yīng)邀出席世界計(jì)算大會(huì)開幕式及系列活動(dòng)
亞信科技CEO高念書應(yīng)邀出席世界計(jì)算大會(huì)開幕式及系列活動(dòng)
iPhone 15發(fā)布,愛租機(jī)通過支付寶推出 iPhone 訂閱新模式
iPhone 15發(fā)布,愛租機(jī)通過支付寶推出 iPhone 訂閱新模式
摩飛大馬士革高端廚刀套裝,打造星級(jí)備餐體驗(yàn)
摩飛大馬士革高端廚刀套裝,打造星級(jí)備餐體驗(yàn)
大眼橙X7D Pro入選中國(guó)智能投影產(chǎn)業(yè)峰會(huì)《2023智能投影產(chǎn)品創(chuàng)新指南》
大眼橙X7D Pro入選中國(guó)智能投影產(chǎn)業(yè)峰會(huì)《2023智能投影產(chǎn)品創(chuàng)新指南》
智能時(shí)代之下 看小笨如何實(shí)現(xiàn)行業(yè)智慧化發(fā)展
智能時(shí)代之下 看小笨如何實(shí)現(xiàn)行業(yè)智慧化發(fā)展

本文鏈接:http://www.www897cc.com/showinfo-16-10200-0.html抖音大規(guī)模實(shí)踐,火山引擎向量數(shù)據(jù)庫對(duì)外開放服務(wù)

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 等待已久的好消息!《原神》4.1版本將于9月27日正式上線

下一篇: 以“量”爭(zhēng)先 下好新一代產(chǎn)業(yè)變革“先手棋”

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 一加首款折疊屏!一加Open渲染圖出爐:罕見單手可握小尺寸

    8月5日消息,此前就有爆料稱,一加首款折疊屏手機(jī)將會(huì)在第三季度上市,如今隨著時(shí)間臨近,新機(jī)的各種消息也開始浮出水面。據(jù)悉,這款新機(jī)將會(huì)被命名為“On
  • 2023 年的 Node.js 生態(tài)系統(tǒng)

    隨著技術(shù)的不斷演進(jìn)和創(chuàng)新,Node.js 在 2023 年達(dá)到了一個(gè)新的高度。Node.js 擁有一個(gè)龐大的生態(tài)系統(tǒng),可以幫助開發(fā)人員更快地實(shí)現(xiàn)復(fù)雜的應(yīng)用。本文就來看看 Node.js 最新的生
  • SpringBoot中使用Cache提升接口性能詳解

    環(huán)境:springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架從 3.1 開始,對(duì) Spring 應(yīng)用程序提供了透明式添加緩存的支持。和事務(wù)支持一樣,抽象緩存允許一致地使用各
  • 使用Webdriver-manager解決瀏覽器與驅(qū)動(dòng)不匹配所帶來自動(dòng)化無法執(zhí)行的問題

    1、前言在我們使用 Selenium 進(jìn)行 UI 自動(dòng)化測(cè)試時(shí),常常會(huì)因?yàn)闉g覽器驅(qū)動(dòng)與瀏覽器版本不匹配,而導(dǎo)致自動(dòng)化測(cè)試無法執(zhí)行,需要手動(dòng)去下載對(duì)應(yīng)的驅(qū)動(dòng)版本,并替換原有的驅(qū)動(dòng),可能還
  • 從零到英雄:高并發(fā)與性能優(yōu)化的神奇之旅

    作者 | 波哥審校 | 重樓作為公司的架構(gòu)師或者程序員,你是否曾經(jīng)為公司的系統(tǒng)在面對(duì)高并發(fā)和性能瓶頸時(shí)感到手足無措或者焦頭爛額呢?筆者在出道那會(huì)為此是吃盡了苦頭的,不過也得
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人員可能會(huì)涉及各種各樣的安全任務(wù),包括但不限于:開發(fā)某些安全工具的插件,滿足自己特定的安全需求;自定義github搜索工具,快速查找所需的安全資料、漏洞poc、exp
  • 認(rèn)真聊聊東方甄選:如何告別低垂的果實(shí)

    來源:山核桃作者:財(cái)經(jīng)無忌爆火一年后,俞敏洪和他的東方甄選依舊是頗受外界關(guān)心的“網(wǎng)紅”。7月5日至9日,為期5天的東方甄選“甘肅行”首次在自有App內(nèi)直播,
  • 微博大門常打開,迎接海外畫師漂洋東渡

    作者:互聯(lián)網(wǎng)那些事“起猛了,我能看得懂日語了”。“為什么日本人說話我能聽懂?”“中文不像中文,日語不像日語,但是我竟然看懂了”…&hell
  • 回歸OPPO兩年,一加贏了銷量,輸了品牌

    成為OPPO旗下主打性能的先鋒品牌后,一加屢創(chuàng)佳績(jī)。今年618期間,一加手機(jī)全渠道銷量同比增長(zhǎng)362%,憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品,一加

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

Top 主站蜘蛛池模板: 苗栗县| 子长县| 邹城市| 休宁县| 龙里县| 米脂县| 道孚县| 利津县| 辽中县| 察雅县| 密山市| 祥云县| 额济纳旗| 三亚市| 平乡县| 龙南县| 乾安县| 湛江市| 惠水县| 宝坻区| 通河县| 益阳市| 邵阳市| 札达县| 阿克苏市| 上饶市| 通城县| 九龙坡区| 深泽县| 榆中县| 永德县| 丹阳市| 鹤岗市| 华坪县| 界首市| 博湖县| 年辖:市辖区| 三都| 邛崃市| 陈巴尔虎旗| 新干县|