突發(fā)!谷歌發(fā)布史上最強大模型Gemini,打爆GPT4
分類: 最新資訊
日志詞典
編輯 : 日志大全
發(fā)布 : 12-08
閱讀 :121
金磊 魚羊 發(fā)自 凹非寺量子位 | 公眾號 QbitAI傳聞中的谷歌殺手锏Gemini,來了!就在剛剛,谷歌CEO皮猜和哈薩比斯在谷歌官網(wǎng)聯(lián)名發(fā)文,宣布推出這一萬眾矚目的多模態(tài)大模型。標(biāo)題明晃晃寫著“最大”、“最強”,主打的就是一個干爆GPT-4。具體來說,此次谷歌一共帶來了Gemini的三個版本:Gemini Ultra:谷歌最大、最強模型,適用于高度復(fù)雜的任務(wù)Gemini Pro:可擴展至各種任務(wù)的Gemini模型Gemini Nano:適用于端側(cè)設(shè)備的高效Gemini版本(1.8B/3.25B)其中Gemini Ultra一上來就在32個基準(zhǔn)測試中拿下30個SOTA,并且第一個在MMLU基準(zhǔn)上達到人類專家水平。而Gemini Pro從今天起,就會在Bard中實裝上線。同時,谷歌Gemini團隊還公布了一份60頁的詳細(xì)技術(shù)報告。消息一出,社交媒體瞬間炸了鍋。英偉達AI科學(xué)家Jim Fan就第一時間轉(zhuǎn)發(fā)評論:這是OpenAI王座的有力競爭者。話不多說,一起來看更多細(xì)節(jié)。谷歌史上最強大模型Gemini在LLM中的表現(xiàn),也正如我們剛才所述,32個基準(zhǔn)測試中拿下30個SOTA。其中,通用、推理、數(shù)學(xué)和編程等大方向的成績?nèi)缦卤硭荆骸鱃emini 在包括文本和編碼在內(nèi)的一系列基準(zhǔn)測試中達到SOTA在多模態(tài)方面,Gemini Ultra在新的MMMU基準(zhǔn)測試中也獲得了59.4%的SOTA分?jǐn)?shù)。這項基準(zhǔn)測試是由跨不同領(lǐng)域的多模式任務(wù)組成,需要大模型進行一個深思熟慮的推理過程。根據(jù)谷歌給出的圖像基準(zhǔn)測試結(jié)果來看,Gemini Ultra在沒有OCR系統(tǒng)的幫助下,表現(xiàn)優(yōu)于之前最先進的模型。△Gemini 在一系列多模態(tài)基準(zhǔn)測試中達到SOTA接下來,我們以具體的案例來看一下Gemini的能力。例如科學(xué)家們經(jīng)常要面對從成千上萬的文獻中提取數(shù)據(jù)的難題,像下面這篇研究,作者就通過手動的方法從上萬篇遺傳學(xué)論文中創(chuàng)建了數(shù)據(jù)集。像這樣的數(shù)據(jù)集是需得隨著時間流逝而進行更新的,但現(xiàn)實的情況是,自2021年以來,這個領(lǐng)域便已有超過200000篇新增的論文……再像以往手動的方式顯然是不可行的,不過現(xiàn)在有了Gemini,一切就變得簡單了起來。首先,通過自然語言的Prompt,告訴Gemini去過濾相關(guān)的科學(xué)論文:只需片刻時間,Gemini就能找到相關(guān)論文和非相關(guān)的論文。而后,繼續(xù)用Prompt告訴Gemini去閱讀相關(guān)論文,并提取關(guān)鍵數(shù)據(jù),甚至是可以要求它添加注釋的那種。如果你給Gemini一個午休的時間長度,它就能閱讀200000篇論文,從中篩選出250篇并提取數(shù)據(jù)!并且由于Gemini是多模態(tài)的,我們還可以讓它對上面的數(shù)據(jù)表格做進一步的深入操作,例如更新圖表:對于學(xué)生黨來說,Gemini現(xiàn)在也可以成為非常得力的學(xué)習(xí)助手。例如“喂”給Gemini一張手寫物理題,它不僅能看懂,而且還可以辨別手寫答案的對錯。在此基礎(chǔ)上,若是選擇一個錯誤的題目,我們還可以跟Gemini通過自然語言溝通,讓它對每一個細(xì)節(jié)步驟進行詳解。在看圖像做理解和推理方面,谷歌還亮出了更多有意思的案例。例如替換圖片素材的組合方式,Gemini就能像人一樣精準(zhǔn)猜中所指的電影名字:就連下面這種高難度的也能hold住:再如尋找兩張圖片的相似之處:更有意思的是,谷歌還特意用中文做了個demo,來展示Gemini對多張圖片的組合理解能力:那么接下來的問題就是:Gemini是如何做到的?60頁報告透露技術(shù)細(xì)節(jié)谷歌Gemini背后技術(shù)的殺手锏,便是原生多模態(tài)(natively multimodal)。因為以往創(chuàng)建多模態(tài)大模型的方法,通常是為不同的模態(tài)訓(xùn)練單獨的組件,然后將它們拼接在一起,大致模擬其中的一些功能。這樣訓(xùn)練出來的模型雖然有時可以很好地執(zhí)行某些任務(wù)(比如描述圖像),但在面對更具概念性和復(fù)雜推理的情況下,就會出現(xiàn)表現(xiàn)不佳的結(jié)果。而谷歌Gemini所強調(diào)的原生多模態(tài),是指從一開始就對不同的模態(tài)進行預(yù)訓(xùn)練,然后用額外的多模態(tài)數(shù)據(jù)對其進行微調(diào),以此來進一步完善大模型的有效性。谷歌對此表示:這樣的訓(xùn)練方法,有助于Gemini從頭開始無縫地理解和推理各種輸入,遠遠優(yōu)于現(xiàn)有的多模態(tài)模型;而且它的功能在幾乎每個領(lǐng)域都是最先進的。具體到模型架構(gòu)方面,Gemini基于增強的Transformer decoder打造,采用了高效attention機制(如multi-query attention),支持32k上下文長度。盡管沒有透露Ultra和Pro版本的具體參數(shù)規(guī)模,但技術(shù)報告中提到,谷歌使用TPUv5e和TPUv4來訓(xùn)練Gemini。訓(xùn)練Gemini Ultra使用了跨多個數(shù)據(jù)中心的大量TPUv4。這意味著與谷歌此前的主力大模型PaLM-2相比,Gemini在規(guī)模上顯著增大。此前,PaLM-2被曝參數(shù)規(guī)模為3400億。Gemini Pro實裝上線競爭對手那邊,OpenAI的GPTs驚艷全世界,微軟的Copilot更是先一步滲透進全線產(chǎn)品。因此Gemini一出,谷歌也當(dāng)即強調(diào):Gemini將通過谷歌產(chǎn)品推向數(shù)十億用戶。率先上線的是Gemini Pro。從今天起,谷歌的聊天機器人Bard將由Gemini Pro微調(diào)版本驅(qū)動。谷歌表示:這是Bard自推出以來的最大升級。谷歌還打算把Gemini引入手機:Pixel 8 Pro將是第一款運行Gemini Nano的智能手機。另外,谷歌計劃在接下來幾個月中,將Gemini全面推向搜索、廣告、Chrome和Duet AI等產(chǎn)品線。根據(jù)官方數(shù)據(jù),Gemini能使用戶的搜索生成體驗(SGE)速度更快、質(zhì)量更高,比如在美國使用英語搜索延遲能減少40%。值得關(guān)注還有,就在Gemini正式亮相的同時,谷歌還推出了專為大模型而設(shè)計的新一代TPU——Cloud TPU v5p。那么,你覺得這一波,谷歌能趕上OpenAI的腳步嗎?參考鏈接:[1]https://blog.google/technology/ai/google-gemini-ai[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf[3]https://youtu.be/jV1vkHv4zq8?si=jjAw0uV0dkpP3eVT