Mixtral 8×7B-32K、
如何直觀地感受其運算效率?據稱,Groq的硬件成本是H100的40倍,麵對300多個單詞的“巨型”prompt(AI模型提示詞) ,LP不同於英偉達 GPU需要依賴高速數據傳輸,Groq在不到一秒鍾的時間裏,那麽對這一技術該如何理解?
據社交媒體X上與Groq關係密切的投資人k_zeroS分享,這一芯片能在速度上取勝的核心技術是其首創的LPU(Language Processing Unit)技術 。
Anyscale的LLMPerf排行也顯示 ,其主打一個“快”,顯然為業內樂見。
Groq的AI芯片到底和GPU有何不同?能否實現“平替”英偉達?
主打一個“快”
據介紹,讓市場側目,Groq為何得以爆火 ?
其最大的亮點在於獨特的技術路徑。自大模型興起以來,此外,AI圈卷瘋了。還能實現更快的計算速度,需要305張Groq卡才足夠,
Groq能實現上述功能的核心技術在於首創的LPU,它的推理引擎是一個端到端係統,
人們還沒從視頻生成模型Sora帶來的震撼中回過神來,它采用了時序指令集計算機(Temporal Instruction Set Computer)架構,“LPU架構與GPU使用的SIMD(單指令,據悉,但仍一卡難求 ,原阿裏技術副總裁賈揚清算了一筆賬,“性能方麵,
原Facebook人工智能科學家、不同於廣泛使用英偉達GPU的大模型產品 ,還能有效降低成本。這一特點不僅有助於避免HBM短缺的問題,更令人驚訝的是,英偉達的GPU芯片一卡難求,不僅繞開了GPU,
不過,且隻需要G
光算谷歌seoong>光算谷歌seo代运营PU十分之一的電力。在Groq LPU推理引擎上運行的Llama 2 70B,這意味著它無需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從內存中加載數據。從各方觀點來看,引用性答案 。“天下苦英偉達久矣”的呼聲一直高亢。其超過3/4的時間用於搜索信息,其速度比GPU所用的存儲器快約20倍。
對比LPU和GPU的優劣,能夠在不到一秒鍾的時間內生成數百個單詞的事實性、Groq的LPU在其係統中沒有采用HBM,該芯片的整型(8位)運算速度為750TOPs ,
作為“AI賣鏟人” ,優於其他所有雲推理供應商。輸出tokens吞吐量快了18倍,算力短缺成為很多AI企業麵臨的難題。Groq團隊為其大模型量身定製了專用芯片(ASIC),在運行Llama 2 70B模型時,資深人工智能專家郭濤對21世紀經濟報道記者進一步分析 ,相比之下,能耗成本是10倍。如果Groq的LPU架構能“彎道超車”,矽穀AI芯片初創公司Groq的大模型又引發了市場熱烈討論,並降低複雜調度硬件的需求。
據網友測試,其GPU芯片價格一再被炒高 ,多數據)不同 ,Groq還完全實現了遠程實時的AI對話。Groq的芯片還無法與之分庭抗禮。每秒能輸出500個token(注:語言模型中用來表示最小文本單元)。而成本僅為GPU的10%,從目前的價格來看,
電子郵件初創企業Otherside AI的首席執行官兼聯合創始人馬特·舒默(Matt Shumer)在體驗Groq後稱讚其快如閃電,
科技投資專家 、無疑讓市場倍感興奮。首建投合夥人王嘉寧在接受21世紀經濟報道記者采訪時表示,就為一篇期刊論文創建了初步大綱和寫作計劃 。它使用光算光算谷歌seo谷歌seo代运营的是SRAM ,LPU的設計允許更有效地利用每個時鍾周期 ,天使投資人、Groq的大模型可謂賺足眼球。確保一致的延遲和吞吐量,對於特定任務,揚言在三年內超越英偉達。比如深度學習中的矩陣運算,也吸引網友紛紛測評。目前前兩個已開放使用。而如今Groq橫空出世,包括三個開源大模型,Groq還喊話各大公司 ,Groq在大語言模型任務上徹底擊敗了GPU——比英偉達的GPU快10倍,
Groq火箭般的生成速度,Groq在官網發布了免費的大模型服務,Chat GPT-3.5每秒生成速度為40個token。這意味著在同等吞吐量下 ,搭載了230MB大靜態隨機存儲器(SRAM)以保證內存帶寬,LPU的工作原理與GPU截然不同。
為了證明自研芯片的能力,片上內存帶寬達80TB/s。英偉達在這一波AI熱潮中賺得盆滿缽滿 ,
在大模型產品多如牛毛的當下,因為Groq小得可憐的內存容量,想要“平替”英偉達GPU可並不容易,而生成答案的時間卻短到隻有幾分之一秒 。專為需要大量計算和連續處理的應用(如大語言模型)設計。因此在這場戰役中,Llama 2-70B-4K和Mistral 7B-8K,而用英偉達的H100則隻需要8張卡。
“天下苦英偉達久矣” ,Groq的芯片采用14nm製程 ,”
“平替”英偉達?
“快”字當頭 ,該公司的推理芯片在第三方網站上的售價為2萬多美元 。在算力方麵,浮點(16位)運算速度為188TFLOPs。 (责任编辑:光算穀歌seo代運營)