人人干97-人人干操-人人干狠狠操-人人干美女-国产人妖在线-国产人妖在线播放

比Hugging Face快24倍,伯克利神級(jí)LLM推理系統(tǒng)開源,碾壓SOTA,讓GPU砍半 世界關(guān)注
時(shí)間:2023-06-21 16:41:09  來源:引領(lǐng)外匯網(wǎng)  
1
聽新聞

小羊駝和排位賽的「幕后英雄」


【資料圖】

編者按:本文來自微信公眾號(hào) 新智元(ID:AI_era),作者:桃子 好困 ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。

過去2個(gè)月,來自UC伯克利的研究人員給大語(yǔ)言模型們安排了一個(gè)擂臺(tái)——Chatbot Arena。

GPT-4等大語(yǔ)言模型玩家打起了「排位賽」,通過隨機(jī)battle,根據(jù)Elo得分來排名。

這一過程中,每當(dāng)一個(gè)用戶訪問并使用網(wǎng)站,就需要同時(shí)讓兩個(gè)不同的模型跑起來。

他們是如何做到的?

這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務(wù)系統(tǒng)vLLM。

簡(jiǎn)之,vLLM是一個(gè)開源的LLM推理和服務(wù)引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。

配備全新算法的vLLM,重新定義了LLM服務(wù)的最新技術(shù)水平:

值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個(gè)集成。

正如研究者所稱,vLLM最大的優(yōu)勢(shì)在于——提供易用、快速、便宜的LLM服務(wù)。

這意味著,未來,即使對(duì)于像LMSYS這樣計(jì)算資源有限的小型研究團(tuán)隊(duì)也能輕松部署自己的LLM服務(wù)。

項(xiàng)目地址:https://github.com/vllm-project/vllm

現(xiàn)在,所有人可以在GitHub倉(cāng)庫(kù)中使用一個(gè)命令嘗試vLLM了。論文隨后也會(huì)發(fā)布。

性能全面碾壓SOTA

今天,這個(gè)由UC伯克利創(chuàng)立的開放研究組織LMSYS介紹道:

「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數(shù)量減少了一半,同時(shí)每天平均提供3萬次請(qǐng)求。」

vLLM的性能具體如何?

UC伯克利團(tuán)隊(duì)將vLLM的吞吐量與最受歡迎的LLM庫(kù)HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術(shù)水平進(jìn)行了比較。

團(tuán)隊(duì)在兩個(gè)設(shè)置中進(jìn)行評(píng)估:在NVIDIA A10G GPU上運(yùn)行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運(yùn)行LLaMA-13B模型。

然后,研究人員從ShareGPT數(shù)據(jù)集中抽樣請(qǐng)求的輸入/輸出長(zhǎng)度。

在實(shí)驗(yàn)中,vLLM的吞吐量比HF高達(dá)24倍,并且比TGI高達(dá)3.5倍。

在每個(gè)請(qǐng)求只需要一個(gè)輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍

在每個(gè)請(qǐng)求需要3個(gè)并行輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍

秘密武器:PagedAttention

在vLLM中,團(tuán)隊(duì)發(fā)現(xiàn)LLM服務(wù)的性能受到內(nèi)存的限制。

在自回歸解碼過程中,LLM的所有輸入token都會(huì)生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內(nèi)存中以生成下一個(gè)token。

這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點(diǎn):

1. 內(nèi)存占用大:在LLaMA-13B中,單個(gè)序列的KV緩存占用高達(dá)1.7GB的內(nèi)存。

2. 動(dòng)態(tài)化:其大小取決于序列長(zhǎng)度,而序列長(zhǎng)度高度易變,且不可預(yù)測(cè)。

因此,有效管理KV緩存是一個(gè)重大挑戰(zhàn)。對(duì)此,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于碎片化和過度保留而浪費(fèi)了60%至80%的內(nèi)存。

用團(tuán)隊(duì)的導(dǎo)師Joey Gonzalez的一句話來講:GPU內(nèi)存碎片化=慢。

為了解決這個(gè)問題,團(tuán)隊(duì)引入了PagedAttention,一種受到操作系統(tǒng)中虛擬內(nèi)存和分頁(yè)經(jīng)典概念啟發(fā)的注意力算法。

與傳統(tǒng)的注意力算法不同,PagedAttention允許在非連續(xù)的內(nèi)存空間中存儲(chǔ)連續(xù)的鍵和值。

具體來說,PagedAttention將每個(gè)序列的KV緩存分為若干塊,每個(gè)塊包含固定數(shù)量token的鍵和值。在注意力計(jì)算過程中,PagedAttention內(nèi)核能夠高效地識(shí)別和提取這些塊。

PagedAttention:KV緩存被分割成塊,這些塊在內(nèi)存中不需要連續(xù)

由于這些塊在內(nèi)存中不需要連續(xù),因此也就可以像操作系統(tǒng)的虛擬內(nèi)存一樣,以更靈活的方式管理鍵和值——將塊看作頁(yè),token看作字節(jié),序列看作進(jìn)程。

序列的連續(xù)邏輯塊通過塊表映射到非連續(xù)的物理塊。隨著生成新的token,物理塊會(huì)按需進(jìn)行分配。

使用PagedAttention的請(qǐng)求生成過程示例

PagedAttention將內(nèi)存浪費(fèi)控制在了序列的最后一個(gè)塊中。

在實(shí)踐中,這帶來了接近最優(yōu)的內(nèi)存使用——僅有不到4%的浪費(fèi)。

而這種內(nèi)存效率的提升,能讓系統(tǒng)將更多的序列進(jìn)行批處理,提高GPU利用率,從而顯著提高吞吐量。

此外,PagedAttention還具有另一個(gè)關(guān)鍵優(yōu)勢(shì):高效的內(nèi)存共享。

比如在并行采樣中,就能從相同的提示生成多個(gè)輸出序列。在這種情況下,提示的計(jì)算和內(nèi)存可以在輸出序列之間共享。

并行采樣的示例

PagedAttention通過塊表自然地實(shí)現(xiàn)了內(nèi)存共享。

類似于進(jìn)程共享物理頁(yè)的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。

為了確保安全,PagedAttention會(huì)跟蹤物理塊的引用計(jì)數(shù),并實(shí)現(xiàn)了寫時(shí)復(fù)制機(jī)制。

采樣多個(gè)輸出的請(qǐng)求示例生成過程

PagedAttention的內(nèi)存共享極大減少了復(fù)雜采樣算法(如并行采樣和束搜索)的內(nèi)存開銷,將它們的內(nèi)存使用量減少了高達(dá)55%。這可以將吞吐量提高多達(dá)2.2倍。

總結(jié)而言,PagedAttention是vLLM的核心技術(shù),它是LLM推斷和服務(wù)的引擎,支持各種模型,具有高性能和易于使用的界面。

GitHub上,團(tuán)隊(duì)也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構(gòu):

- GPT-2(gpt2、gpt2-xl等)

- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)

- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)

- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

小羊駝和排位賽的「幕后英雄」

4月初,UC伯克利學(xué)者聯(lián)手UCSD、CMU等,最先推出了一個(gè)開源全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」。

從那時(shí)起,Vicuna已在Chatbot Arena為數(shù)百萬用戶提供服務(wù)。

最初,LMSYS的FastChat采用基于HF Transformers的服務(wù)后端來提供聊天demo。

但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個(gè)重大的瓶頸。

為了解決這一挑戰(zhàn),LMSYS與vLLM團(tuán)隊(duì)緊密合作,全力開發(fā)出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長(zhǎng)的需求(最多增加5倍的流量)。

根據(jù)LMSYS內(nèi)部微基準(zhǔn)測(cè)試的結(jié)果,vLLM服務(wù)后端可以實(shí)現(xiàn)比初始HF后端高出30倍的吞吐量。

4月-5月期間,Chatbot Arena的后端已經(jīng)部落了FastChat-vLLM的集成。實(shí)際上,有超過一半的Chatbot Arena請(qǐng)求都使用FastChat-vLLM集成服務(wù)的

自4月中旬以來,最受歡迎的語(yǔ)言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務(wù)。

FastChat作為多模型聊天服務(wù)前端,vLLM作為推理后端,LMSYS能夠利用有限數(shù)量的GPU(學(xué)校贊助的),以高吞吐量和低延遲為數(shù)百萬用戶提供Vicuna服務(wù)。

現(xiàn)在,LMSYS正在將vLLM的使用擴(kuò)展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):

vLLM可用于離線推理和在線服務(wù)。要使用vLLM進(jìn)行離線推理,你可以導(dǎo)入vLLM并在Python腳本中使用LLM類:

要使用vLLM進(jìn)行在線服務(wù),你可以通過以下方式啟動(dòng)與OpenAI API兼容的服務(wù)器:

你可以使用與OpenAI API相同的格式查詢服務(wù)器:

有關(guān)使用vLLM的更多方法,請(qǐng)查看快速入門指南:

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

團(tuán)隊(duì)介紹

Zhuohan Li

Zhuohan Li是加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)專業(yè)的博士生,研究興趣是機(jī)器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。

在此之前,他在北京大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是王立威和賀笛。

Woosuk Kwon

Woosuk Kwon是加州大學(xué)伯克利分校的博士生,研究興趣是為大語(yǔ)言模型等新興應(yīng)用建立實(shí)用、靈活和高性能的軟件系統(tǒng)。

團(tuán)隊(duì)其他成員包括莊思遠(yuǎn)、盛穎、鄭憐憫、Cody Yu。團(tuán)隊(duì)導(dǎo)師包括Joey Gonzalez,Ion Stoica和張昊。

其中,團(tuán)隊(duì)的大部分成員同時(shí)也是LMSYS成員。

參考資料

https://vllm.ai

關(guān)鍵詞:

脱了老师内裤猛烈进入的软件| 大象大象视频WWW在线观看 | 国产在线码观看超清无码视频| 日本丰满少妇精品| 国产精品国产三级国产AV麻豆| 色窝窝无码一区二区三区| 热99RE久久国超精品首页| 欧美午夜精品一区二区蜜桃| 欧美激情精品久久久久久| 欧美少妇XXXXX| 漂亮人妻去按摩被按中出| 欧美日韩视频一区二区| 青青草无码伊人久久| 日本丰满老妇BBB| 手机在线看永久AV片免费| 天堂√中文在线BT| 午夜.DJ高清免费观看视频| 校花娇喘呻吟校长陈若雪视频| 人妻无码熟妇乱又视频| 日本XXXX裸体XXXX在线观| 乳揉みま痴汉电车中文字幕 | 亚洲AV永久无码成人红楼影视 | ASIAN日本裸体PICS| 99无人区码一码二码三码四| 99热久RE这里只有精品小草| 餐桌下手指噗呲噗呲| 公侵犯玩弄漂亮人妻优| 国产美女裸体无遮挡免费视频| 亚洲乱色熟女一区二区三区蜜臀| 国产在线内射婷婷| 亚洲最大无码成人网站4438| 欧美日韩视频一区二区三区| 国内偷自第一区二区三区| Chinese老女人老熟妇HD| 50妺妺窝人体色WWW在线| CSGO高清大片视频| 边做饭边被躁BD小说| 村长压在小雪身上耕耘视频| 国产SUV精品一区二区33| 国产午夜福利片1000无码| 国产做无码视频在线观看浪潮| 宝宝握住坐下~它会自己动| 被老头侵犯的人妻| 波多野结衣高清一区二区三区| 泳池里强摁做开腿呻吟漫画视频| 私はあなたのおさんです怎么读| 男生晚上睡不着想看B站 | 色欲色香天天天综合网WWW| 铜铜铜铜铜铜铜铜铜好多水| 无码专区人妻丝袜| 亚洲精品乱码久久久久久按摩| 熟妇人妻久久中文字幕麻豆网| 免费人成在线观看视频高潮| 漂亮人妻偷人精品视频| 少妇被粗大的猛烈进出69影院| 欧美美女多人群交视频| 熟女CHACHACHA性少妇| 女角色翻白眼流口水流眼泪图片| 白嫩极品女粉嫩喷水视频的| 亚洲国产欧美在线人成APP| 少妇呻吟翘臀后进爆白浆| 蜜桃久久久久久精品免费观看| 被喂春药蹂躏的欲仙欲死视频| 亚洲AV无码乱码一级毛片孕妇| 午夜无码免费福利视频网址| 又爽又黄又无遮挡网站| 波多野结衣AV高清中文字幕| 国产一国产二国产三国产四国产五| 国产SUV精品一区二区四区三区 | 无码熟妇人妻AⅤ在线影片| 亚洲一成人精品无码一区二区三区| 亚洲AV综合色区无码4区| 中国熟妇毛多多裸交视频| 吃饭时把腿张开故意让公| 狠狠躁天天躁男人| 欧美丰满美乳XXⅩ高潮| 无人区码一码二码三码网页| 亚洲中文字幕无码AV在线| A级毛片无码兔费真人久久| 公天天吃我奶躁我的比视频| 久久精品国产清自在天天线| 日本按摩高潮S级中文片| 亚洲成人片在线观看| А天堂最新版中文网| 韩国亚洲精品A在线无码| 蜜桃AV抽搐高潮一区二区| 婷婷色婷婷开心五月四房播播| 香蕉久久一区二区不卡无毒影院| 亚洲AV无码精品蜜桃| 亚洲色噜噜噜噜噜噜国产| 午夜毛片精彩毛片| 日本少妇ASS浓精PICS| 欧美大屁股妞性潮喷ⅩXX| 蜜臀久久久久精品久久久| 胯下娇喘的班主任| 国产亚洲精久久久久久无码| 欧美一区二区放荡人妇| 亚洲AV永久无码精品| 啊~每一次都撞到最里面| 精品久久久久久亚洲综合网| 日本欧美大码A在线观看| 亚洲色爱图小说专区| 国产A∨精品一区二区三区不卡| 国产精品成人A区在线观看| 老熟女奶头好大呀| 小浪蹄子蜜水噗呲噗呲的| 99品一二三产区区别| 精品毛卡卡1卡2卡3麻豆| 日韩精品无码中文字幕第一区 | 差差漫画页面免费漫画欢迎你 | 欧洲美女黑人粗性暴交视频| 亚洲精品国产综合久久久久紧| 亚洲日韩中文在线精品第一| 成人毛片女18免费| 久久婷婷日日澡天天添| 无码乱人伦一区二区亚洲一| Japanese 国产一区| 精品人妻一区二区三区三区换着玩| 国模无码一区二区三区不卡| 精品国产乱码久久久久软件| 久久精品女人天堂AV| 欧美成人精品一区二区三区| 欧美性狂猛BBBBBBXXXXXX| 少妇高潮喷水久久久久久久久久| 欧美VIDEOS另类色HDFR| 少妇邻居内射在线| A级无遮挡超级高清-在线观看| 国产交换配乱婬视频偷| 欧美成人精品午夜免费影视| 亚洲国产成人精品激情姿源| 国产成人精品A视频免费福利| 机长脔到她哭H粗话H| 少妇性生生活视频在线观看| www啪啪小白浆内射无码| 免费无码AV电影在线观看| 亚洲国产AV无码精品| 国产麻豆剧传媒精品国产AV蜜桃 | 国产成人精品无码片区在线观看| 韩漫无遮漫画全集观看| 铜铜铜铜铜铜铜铜铜好多深| XXXXXHD亚洲日本HD| 麻豆TV入口在线看| 一二三四在线观看视频韩国| 精品无码人妻一区二区三区不卡| 少妇被躁爽到呻吟全过的小说| 亚洲精品午睡沙发系列| 国产美女露脸口爆吞精| 婷婷丁香五月深爱憿情网| 成 人 黄 色 网 站 视频 S色| 激情影院内射美女| 亚洲AV无码精品色午夜| 国产美女视频国产视视频| 久久无码AV三级| 天堂8中文在线最新版在线| 亚洲AV无码专区亚洲AV漫画 | 成人国产三级在线观看| 国产性色ΑV视频免费| 人妻ay无码一区二区三区| А√天堂资源8在线官网地址| 久9视频这里只有精品试看| 亚洲AV鲁丝片在线观看| 国产精品久久一区二区三区蜜桃| 妺妺窝人体色7777777| 综合亚洲另类欧美久久成人精品| 黑人与中国娇小美女AV在线| 亚洲色欲综合天堂亚洲| 久久久久亚洲AV无码尤物| 尤物AV无码色AV无码麻豆| 欧美成人片在线观看网站| 成人无码区免费AⅤ片黄瓜视频| 欧美一区二区三区不卡| 高清欧美性猛交XXXX黑人猛交| 欧美一级内射黑人内射| 大BBW大BBW超大BBW| 性极强的岳让我满足| 久久久久琪琪去精品色一到本| 亚洲人成人无码WWW影院| 男人的天堂在线视频| 处破女轻点疼丨98分钟| 亚洲AⅤ无码一区二区波多野| AV片在线观看网站免费| 精品无人区一线二线三线区别| 欧美日韩一区二区综合| 亚洲一区二区三区AV无码蜜桃| 成人性色生活片免费看爆迷你| 娇妻玩4P被3个男子伺候电影| 欧美精欧美乱码一二三四区| 一女三黑人玩4P惨叫| 久久精品国产999久久久| 亚洲第一最快AV网站| 国产又色又爽又黄的在线观看| 女人国产香蕉久久精品| 中文字幕丝袜人妻制服丝袜在线| 国产成人午夜高潮毛片 | 免费观看的A级毛片的网站| 野花高清中文免费观看视频| 久久精品夜夜夜夜夜久久| 亚洲中文字幕码在线电影| 久久久久亚洲AV成人人电影| 亚洲АV天堂手机版在线观看|