那個語言模型又迭代了,現(xiàn)在有1750億個參數(shù)。這個讓英偉達狂喜,讓調(diào)參師流淚的數(shù)字來自O(shè)penAI,史上最大AI語言模型——GPT-3。單單論文就有72
那個語言模型又迭代了,現(xiàn)在有1750億個參數(shù)。
這個讓英偉達狂喜,讓調(diào)參師流淚的數(shù)字來自O(shè)penAI,史上最大AI語言模型——
GPT-3。
單單論文就有72頁。
OpenAI表示,通過GPT-3,他們證明了無需梯度更新,無需微調(diào),規(guī)模更大的語言模型就可以大大改善無關(guān)任務(wù)和小樣本(few-shot)學習的性能,達到最先進微調(diào)方法的水準。
在部分任務(wù)中,甚至超越了最先進微調(diào)方法。
不僅如此,這個語言模型,還能做加減法。
GPT-3是什么
不妨先來看看GPT-3的實際表現(xiàn)。
比如,先告訴GPT-3這樣一個示例:
“whatpu”是坦桑尼亞的一種小型、毛茸茸的動物。一個使用whatpu造句的例子是:我們在非洲旅行時,看到了非??蓯鄣膚hatpu。
此后不再給GPT-3任何特定任務(wù)提示,就向它拋出問題:
“Burringo”是指加速度非??斓钠?。一個使用Burringo造句的例子是:
GPT-3造出的句子是這樣的:
在我們的車庫里有一輛Burringo,我爸天天開著它上下班。
至于編故事的能力,在500個詞的情況下,人類判斷出其為AI生成的概率僅為52%。在最佳案例中,判斷準確率甚至降到了12%。
能自己編故事、糾正英語語法,甚至,GPT-3還學會了3位數(shù)基本運算。
表中,D{+,-}表示2、3、4、5位數(shù)加法或減法,2Dx代表2位數(shù)乘法,1DC代表1位數(shù)復(fù)合運算。
無需微調(diào)
前文也說到了,達到這樣的效果,不需要梯度更新,不需要微調(diào)。只需要指定任務(wù)、展示少量演示,來與模型文本交互,就能使其完成任務(wù)。
這樣一來,一方面,對于新任務(wù),就不需要重新收集大量帶標簽的數(shù)據(jù)。
另一方面,可以避免微調(diào)階段出現(xiàn)過擬合,導致模型泛化能力下降的問題。
而實現(xiàn)的關(guān)鍵,總結(jié)起來就是:大力出奇跡。
不僅模型尺寸增大到了1750億,數(shù)據(jù)量也達到了45TB。V100嘛,是“微軟提供的高帶寬群集中的V100 GPU”。
研究人員將預(yù)訓練模型在三種不同的設(shè)置下進行了探索。
本文的重點放在零樣本、單樣本和小樣本學習上。研究人員沒有對GPT-3進行微調(diào),不過,論文談到,原則上是可以微調(diào)GPT-3的。
模型與架構(gòu)
具體到模型與架構(gòu),研究人員采用了與GPT-2相同的模型和架構(gòu),不過,在tranformer各層中使用了交替稠密(alternating dense)和局部帶狀稀疏注意力(locally banded sparse attention)模式,類似于Spare Transformer。
GPT-3的影響
知乎問題「如何評價1700億參數(shù)的GPT-3」 的標簽,已經(jīng)透露出玄機。
知乎用戶CloudySky就說,看了GPT-3,再看看自己 i9+2080ti+2TB 硬盤的臺式,想想有空還是打開steam,趁打折多買幾個3A大作比較合適。
他還發(fā)出了靈魂一問:
有見過人用竄天猴去調(diào)試火箭發(fā)射井嘛?
復(fù)旦邱錫鵬教授則認為,Pretrain+finetune仍然會是未來幾年的主流。
雖然如此恐怖的計算成本讓人有些望而卻步,但EECVC聯(lián)合創(chuàng)始人Dmytro Mishkin認為:
按10年前的標準,ResNet50的計算代價也是令人望而卻步的,但事實證明它們的存在是必要的。
也有網(wǎng)友表示:
GPT-3可能還是無法幫助OpenAI盈利,也無法直接上線顯著造福網(wǎng)民,但是從中積累的大模型訓練經(jīng)驗是OpenAI及其背后的微軟Azure一筆巨大的財富。這就像,人類登上火星/月球可能并不能帶來直接的資源收益,但是從中積累的科學技術(shù)卻可以推動人類社會的發(fā)展。
做NLP,雖然有了資源不一定行,但是沒有資源現(xiàn)在肯定是不行了。
不管怎么說,看到這GPU熊熊燃燒的場面,想必老黃已經(jīng)樂開了花。
目前,GPT-3尚未開源,可以期待一下,OpenAI這回會擠多久牙膏了。
關(guān)鍵詞: GPT-3