国产乱人伦在线播放,99无码精品二区在线视频,最近在线更新8中文字幕免费,精品成人一区二区三区四区

您的位置:首頁 > 行業(yè) >

語言模型又迭代了 史上最大AI語言模型—GPT-3

2020-06-02 10:07:52 來源: 量子位

那個語言模型又迭代了,現(xiàn)在有1750億個參數(shù)。這個讓英偉達狂喜,讓調(diào)參師流淚的數(shù)字來自O(shè)penAI,史上最大AI語言模型——GPT-3。單單論文就有72

那個語言模型又迭代了,現(xiàn)在有1750億個參數(shù)。

這個讓英偉達狂喜,讓調(diào)參師流淚的數(shù)字來自O(shè)penAI,史上最大AI語言模型——

GPT-3。

單單論文就有72頁。

OpenAI表示,通過GPT-3,他們證明了無需梯度更新,無需微調(diào),規(guī)模更大的語言模型就可以大大改善無關(guān)任務(wù)和小樣本(few-shot)學習的性能,達到最先進微調(diào)方法的水準。

在部分任務(wù)中,甚至超越了最先進微調(diào)方法。

不僅如此,這個語言模型,還能做加減法。

GPT-3是什么

不妨先來看看GPT-3的實際表現(xiàn)。

比如,先告訴GPT-3這樣一個示例:

“whatpu”是坦桑尼亞的一種小型、毛茸茸的動物。一個使用whatpu造句的例子是:我們在非洲旅行時,看到了非??蓯鄣膚hatpu。

此后不再給GPT-3任何特定任務(wù)提示,就向它拋出問題:

“Burringo”是指加速度非??斓钠?。一個使用Burringo造句的例子是:

GPT-3造出的句子是這樣的:

在我們的車庫里有一輛Burringo,我爸天天開著它上下班。

至于編故事的能力,在500個詞的情況下,人類判斷出其為AI生成的概率僅為52%。在最佳案例中,判斷準確率甚至降到了12%。

能自己編故事、糾正英語語法,甚至,GPT-3還學會了3位數(shù)基本運算。

表中,D{+,-}表示2、3、4、5位數(shù)加法或減法,2Dx代表2位數(shù)乘法,1DC代表1位數(shù)復(fù)合運算。

無需微調(diào)

前文也說到了,達到這樣的效果,不需要梯度更新,不需要微調(diào)。只需要指定任務(wù)、展示少量演示,來與模型文本交互,就能使其完成任務(wù)。

這樣一來,一方面,對于新任務(wù),就不需要重新收集大量帶標簽的數(shù)據(jù)。

另一方面,可以避免微調(diào)階段出現(xiàn)過擬合,導致模型泛化能力下降的問題。

而實現(xiàn)的關(guān)鍵,總結(jié)起來就是:大力出奇跡。

不僅模型尺寸增大到了1750億,數(shù)據(jù)量也達到了45TB。V100嘛,是“微軟提供的高帶寬群集中的V100 GPU”。

研究人員將預(yù)訓練模型在三種不同的設(shè)置下進行了探索。

本文的重點放在零樣本、單樣本和小樣本學習上。研究人員沒有對GPT-3進行微調(diào),不過,論文談到,原則上是可以微調(diào)GPT-3的。

模型與架構(gòu)

具體到模型與架構(gòu),研究人員采用了與GPT-2相同的模型和架構(gòu),不過,在tranformer各層中使用了交替稠密(alternating dense)和局部帶狀稀疏注意力(locally banded sparse attention)模式,類似于Spare Transformer。

GPT-3的影響

知乎問題「如何評價1700億參數(shù)的GPT-3」 的標簽,已經(jīng)透露出玄機。

知乎用戶CloudySky就說,看了GPT-3,再看看自己 i9+2080ti+2TB 硬盤的臺式,想想有空還是打開steam,趁打折多買幾個3A大作比較合適。

他還發(fā)出了靈魂一問:

有見過人用竄天猴去調(diào)試火箭發(fā)射井嘛?

復(fù)旦邱錫鵬教授則認為,Pretrain+finetune仍然會是未來幾年的主流。

雖然如此恐怖的計算成本讓人有些望而卻步,但EECVC聯(lián)合創(chuàng)始人Dmytro Mishkin認為:

按10年前的標準,ResNet50的計算代價也是令人望而卻步的,但事實證明它們的存在是必要的。

也有網(wǎng)友表示:

GPT-3可能還是無法幫助OpenAI盈利,也無法直接上線顯著造福網(wǎng)民,但是從中積累的大模型訓練經(jīng)驗是OpenAI及其背后的微軟Azure一筆巨大的財富。這就像,人類登上火星/月球可能并不能帶來直接的資源收益,但是從中積累的科學技術(shù)卻可以推動人類社會的發(fā)展。

做NLP,雖然有了資源不一定行,但是沒有資源現(xiàn)在肯定是不行了。

不管怎么說,看到這GPU熊熊燃燒的場面,想必老黃已經(jīng)樂開了花。

目前,GPT-3尚未開源,可以期待一下,OpenAI這回會擠多久牙膏了。

關(guān)鍵詞: GPT-3

精選 導讀

募資55億港元萬物云啟動招股 預(yù)計9月29日登陸港交所主板

萬科9月19日早間公告,萬物云當日啟動招股,預(yù)計發(fā)行價介乎每股47 1港元至52 7港元,預(yù)計9月29日登陸港交所主板。按發(fā)行1 167億股計算,萬

發(fā)布時間: 2022-09-20 10:39
管理   2022-09-20

公募基金二季度持股情況曝光 隱形重倉股多為高端制造業(yè)

隨著半年報披露收官,公募基金二季度持股情況曝光。截至今年二季度末,公募基金全市場基金總數(shù)為9794只,資產(chǎn)凈值為269454 75億元,同比上

發(fā)布時間: 2022-09-02 10:45
資訊   2022-09-02

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱,擬以1 66億元的轉(zhuǎn)讓底價掛牌出售31套房產(chǎn)。今年以來,A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時間: 2022-08-26 09:44
資訊   2022-08-26

16天12連板大港股份回復(fù)深交所關(guān)注函 股份繼續(xù)沖高

回復(fù)交易所關(guān)注函后,大港股份繼續(xù)沖高。8月11日大港股份高開,隨后震蕩走高,接近收盤時觸及漲停,報20 2元 股。值得一提的是,在7月21日

發(fā)布時間: 2022-08-12 09:56
資訊   2022-08-12

萬家基金再添第二大股東 中泰證券擬受讓11%基金股權(quán)

7月13日,中泰證券發(fā)布公告,擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán),交易雙方共同確定本次交易的標的資

發(fā)布時間: 2022-07-14 09:39
管理   2022-07-14

央行連續(xù)7日每天30億元逆回購 對債市影響如何?

央行12日再次開展了30億元逆回購操作,中標利率2 10%。這已是央行連續(xù)7日每天僅進行30億元的逆回購縮量投放,創(chuàng)下去年1月以來的最低操作規(guī)

發(fā)布時間: 2022-07-13 09:38
資訊   2022-07-13

美元指數(shù)創(chuàng)近20年新高 黃金期貨創(chuàng)出逾9個月新低

由于對美聯(lián)儲激進加息的擔憂,美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響,歐美股市、大宗商品均走弱,而黃金期貨創(chuàng)出逾9個月新低。美

發(fā)布時間: 2022-07-13 09:36
資訊   2022-07-13

美股三大股指全線下跌 納斯達克跌幅創(chuàng)下記錄以來最大跌幅

今年上半年,美股持續(xù)回落。數(shù)據(jù)顯示,道瓊斯指數(shù)上半年下跌15 3%,納斯達克綜合指數(shù)下跌29 5%,標普500指數(shù)下跌20 6%。其中,納斯達克連續(xù)

發(fā)布時間: 2022-07-04 09:51
推薦   2022-07-04

融資客熱情回升 兩市融資余額月內(nèi)增加超344億元

近期A股走強,滬指6月以來上漲4%,融資客熱情明顯回升。數(shù)據(jù)顯示,截至6月16日,兩市融資余額1 479萬億元,月內(nèi)增加344 67億元,最近一個半

發(fā)布時間: 2022-06-20 09:41
資訊   2022-06-20

4個交易日凈買入超百億元 北向資金持續(xù)流入A股市場

北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后,北向資金6月16日凈買入44 52億元。自5月27日至今,除6月13日以外,北向資金累計凈

發(fā)布時間: 2022-06-17 09:37
推薦   2022-06-17