以太坊交易所 以太坊交易所
Ctrl+D 以太坊交易所
ads

GPT-4震撼發布:多模態大模型,直接升級ChatGPT、必應,開放API,游戲終結了?_GPT:PEN

Author:

Time:1900/1/1 0:00:00

誰能革得了ChatGPT的命?現在看來還是OpenAI自己。

在ChatGPT引爆科技領域之后,人們一直在討論AI「下一步」的發展會是什么,很多學者都提到了多模態,我們并沒有等太久。今天凌晨,OpenAI發布了多模態預訓練大模型GPT-4。

GPT-4實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至2.5萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。

「GPT-4是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人,」OpenAI工程師在介紹視頻里說道。

似乎是想一口氣終結這場游戲,OpenAI既發布了論文、SystemCard,把ChatGPT直接升級成了GPT-4版的,也開放了GPT-4的API。

另外,微軟營銷主管在GPT-4發布后第一時間表示:「如果你在過去六周內的任何時候使用過新的Bing預覽版,你就已經提前了解了OpenAI最新模型的強大功能。」是的,微軟的新必應早就已經用上了GPT-4。

接下來,就讓我們細細品味這場震撼發布。

GPT-4:我SAT考710,也能當律師

GPT-4是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回復。實驗表明,GPT-4在各種專業測試和學術基準上的表現與人類水平相當。例如,它通過了模擬律師考試,且分數在應試者的前10%左右;相比之下,GPT-3.5的得分在倒數10%左右。

OpenAI花了6個月的時間使用對抗性測試程序和ChatGPT的經驗教訓對GPT-4進行迭代調整,從而在真實性、可控性等方面取得了有史以來最好的結果。

在過去的兩年里,OpenAI重建了整個深度學習堆棧,并與Azure一起為其工作負載從頭開始設計了一臺超級計算機。一年前,OpenAI在訓練GPT-3.5時第一次嘗試運行了該超算系統,之后他們又陸續發現并修復了一些錯誤,改進了其理論基礎。這些改進的結果是GPT-4的訓練運行獲得了前所未有的穩定,以至于OpenAI能夠提前準確預測GPT-4的訓練性能,它也是第一個實現這一點的大模型。OpenAI表示他們將繼續專注于可靠的擴展,進一步完善方法,以幫助其實現更強大的提前預測性能和規劃未來的能力,這對安全至關重要。

數據:2023上半年共記錄3.3億次加密劫持攻擊,已超過前三年相關攻擊次數總和:7月26日消息,據網絡安全公司SonicWall報告數據顯示,該機構于2023上半年共記錄3.323億次加密劫持攻擊,與去年全年相比增長399%,該數字比2020年、2021年和2022年的加密劫持攻擊次數總和還要高。

SonicWall表示,加密劫持涉及利用屬于他人的服務器和電腦設備來挖礦數字資產,其中以隱私為中心的門羅幣是最受歡迎的。受影響的人甚至可能沒有意識到自己是受害者,他們可能只是覺得他們的機器運行得比平時慢。

SonicWall歐洲、中東和非洲地區副總裁Spencer Starkey表示,加密劫持的最大癥狀包括設備響應速度變慢、電費異常高,以及電池過熱導致風扇過度使用等。與勒索軟件或銀行木馬相比,加密劫持者的目標是盡可能長時間不被發現。[2023/7/26 16:00:16]

OpenAI正在通過ChatGPT和API發布GPT-4的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI正在與其他公司展開合作。

OpenAI今天還開源了OpenAIEvals,這是其用于自動評估AI模型性能的框架。OpenAI表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助OpenAI進一步改進模型。

有趣的是,GPT-3.5和GPT-4之間的區別很微妙。當任務的復雜性達到足夠的閾值時,差異就會出現——GPT-4比GPT-3.5更可靠、更有創意,并且能夠處理更細微的指令。為了了解這兩個模型之間的差異,OpenAI在各種基準和一些為人類設計的模擬考試上進行了實驗。

OpenAI還在為機器學習模型設計的傳統基準上評估了GPT-4。GPT-4大大優于現有的大型語言模型,以及大多數SOTA模型:

LayerZero已上線Arbitrum Nova主網:金色財經報道,據官方推特,LayerZero 宣布已上線 Arbitrum Nova 主網。[2023/6/8 21:23:41]

許多現有的機器學習基準測試都是用英語編寫的。為了初步了解GPT-4在其他語言上的能力,研究團隊使用AzureTranslate將MMLU基準——一套涵蓋57個主題的14000個多項選擇題——翻譯成多種語言。在測試的26種語言的24種中,GPT-4優于GPT-3.5和其他大語言模型的英語語言性能:

就像許多使用ChatGPT的公司一樣,OpenAI表示他們內部也在使用GPT-4,因此OpenAI也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI還使用GPT-4輔助人們評估AI輸出,這也是OpenAI對其策略的第二階段。OpenAI既是GPT-4的開發者,也是使用者。

GPT-4:我能玩梗圖

GPT-4可以接受文本和圖像形式的prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。

具體來說,它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出。在一系列領域——包括帶有文本和照片的文檔、圖表或屏幕截圖上——GPT-4展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈prompt。

比如給GPT-4一個長相奇怪的充電器的圖片,問為什么這很可笑?

GPT-4回答道,VGA線充iPhone。

格魯吉亞和西亞的人均每日肉類消費,算平均數:

CoinList:從第三方購買CoinList賬戶存在違反服務條款、賬戶賣方重新獲得訪問權限等危險:5月12日消息,CoinList 發推提醒稱,從第三方購買 CoinList 賬戶存在嚴重危險和后果,購買賬戶直接違反 CoinList 服務條款,將導致相關帳戶立即終止。另外,由于創建賬戶的賣方是 KYC 的所有者,因此他們可以隨時返回 CoinList 并重新獲得對其賬戶的訪問權限,然后,賬戶賣方可以提取資金,這將給賬戶買方帶來不可逆轉的損失。[2023/5/12 14:59:02]

看起來,現在的GPT已經不會在計算上胡言亂語了:

還是太簡單,那直接讓它做題,還是個物理題:

GPT-4看懂了法語題目,并完整解答:

GPT-4可以理解一張照片里「有什么不對勁的地方」:

GPT-4還可以量子速讀看論文,如果你給它InstructGPT的論文,讓它總結摘要,就會變成這樣:

如果你對論文里的某一個圖感興趣呢?GPT-4也可以解釋一下:

以太坊Layer2總鎖倉量漲至91.6億美元:金色財經報道,據L2BEAT數據顯示,當前以太坊Layer2總鎖倉量漲至91.6億美元,7日漲幅縮窄至4.06%。其中,鎖倉量前五分別為:ArbitrumOne(60.1億美元,7日漲幅3.23%);Optimism(19.6億美元,7日漲幅3.14%);dYdX(3.48億美元,7日漲幅4.27%);zkSync Era(1.81億美元,7日漲幅72.28%);ImmutableX(1.27億美元,7日跌幅0.48%)。[2023/4/10 13:54:22]

接著來,問GPT-4梗圖是什么意思:

它給出了詳細的回答:

那么漫畫呢?

讓GPT-4解釋為什么要給神經網絡加層數,似乎有一點加倍的幽默感。

不過OpenAI在這里說了,圖像輸入是研究預覽,仍不公開。

研究人員用學術的Benchmark視角來解讀GPT-4的看圖能力,然而這已經不夠了,他們還能不斷發現該模型可以令人興奮地處理新任務——現在的矛盾是AI的能力和人類想象力之間的矛盾。

看到這里,應該有研究人員感嘆:CV不存在了。

可控性

與具有固定冗長、平靜語氣和風格的經典ChatGPT個性不同,開發人員現在可以通過在「系統」消息中描述這些方向來規定他們的AI的風格和任務。

Verasity宣布完成本季度第一次5000萬枚VRA代幣銷毀:2月8日消息,Verasity用本季度的總收入銷毀了總計超過500,000美元的50,000,000枚VRA代幣,成功完成了第一次VRA代幣的回購并從總流通中銷毀。該銷毀意味著Verasity回購和銷毀代幣的開始。

Verasity是一個用于電子競技和視頻娛樂的協議和產品層平臺。使視頻發布者在任何平臺上可以顯著增加參與度和廣告的收益。[2023/2/9 11:55:34]

系統消息允許API用戶在一定范圍內定制化實現不同的用戶體驗。OpenAI知道你們在讓ChatGPT玩Cosplay,也鼓勵你們這樣做。

局限性

盡管功能已經非常強大,但GPT-4仍與早期的GPT模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI表示,GPT-4仍然會產生幻覺、生成錯誤答案,并出現推理錯誤。

目前,使用語言模型應謹慎審查輸出內容,必要時使用與特定用例的需求相匹配的確切協議。

總的來說,GPT-4相對于以前的模型已經顯著減輕了幻覺問題。在OpenAI的內部對抗性真實性評估中,GPT-4的得分比最新的GPT-3.5模型高40%:

GPT-4在TruthfulQA等外部基準測試方面也取得了進展,OpenAI測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力,結果如下圖所示。

實驗結果表明,GPT-4基本模型在此任務上僅比GPT-3.5略好;然而,在經過RLHF后訓練之后,二者的差距就很大了。以下是GPT-4的測試示例——并不是所有時候它都能做出正確的選擇。

該模型在其輸出中可能會有各種偏見,OpenAI在這些方面已經取得了進展,目標是使建立的人工智能系統具有合理的默認行為,以反映廣泛的用戶價值觀。

GPT-4通常缺乏對其絕大部分數據截止后發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這么多領域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。

GPT-4預測時也可能出錯但很自信,意識到可能出錯時也不會double-check。有趣的是,基礎預訓練模型經過高度校準。然而,通過OpenAI目前的后訓練過程,校準減少了。

風險及緩解措施

OpenAI表示,研究團隊一直在對GPT-4進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。

GPT-4有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不準確的信息。同時,GPT-4的額外能力導致了新的風險面。為了了解這些風險的程度,團隊聘請了50多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估,來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。

預防風險

按照demo視頻里OpenAI工程師們的說法,GPT-4的訓練在去年8月完成,剩下的時間都在進行微調提升,以及最重要的去除危險內容生成的工作。

GPT-4在RLHF訓練中加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由GPT-4的零樣本分類器提供的,它判斷安全邊界和安全相關prompt的完成方式。為了防止模型拒絕有效的請求,團隊從各種來源收集多樣化的數據集,在允許和不允許的類別上應用安全獎勵信號。

這些措施大大在許多方面改善了GPT-4的安全性能。與GPT-3.5相比,模型對不允許內容的請求的響應傾向降低了82%,而GPT-4對敏感請求的響應符合政策的頻率提高了29%。

訓練過程

與之前的GPT模型一樣,GPT-4基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI使用公開可用的數據以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫,包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,以及各種各樣的意識形態和想法。

因此,當提出問題時,基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致,OpenAI依然使用強化學習人類反饋(RLHF)來微調模型的行為。請注意,該模型的能力似乎主要來自預訓練過程——RLHF不會提高考試成績。但是模型的控制來自后訓練過程——基礎模型甚至需要及時的工程設計來回答問題。

GPT-4的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是,對于像GPT-4這樣的大型訓練,進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化,在多種規模下都有可預測的行為。為了驗證這種可擴展性,他們提前準確地預測了GPT-4在內部代碼庫上的最終損失,方法是通過使用相同的方法訓練的模型進行推斷,但使用的計算量為1/10000。

現在,OpenAI可以準確地預測在訓練過程中優化的指標。例如從計算量為1/1000的模型中推斷并成功地預測了HumanEval數據集的一個子集的通過率:

有些能力仍然難以預測。例如,InverseScaling競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而hindsightneglect任務是獲勝者之一。GPT-4扭轉了這一趨勢。

能夠準確預測未來的機器學習能力對于技術安全來說至關重要,但它并沒有得到足夠的重視,OpenAI表示正在投入更多精力開發相關方法,并呼吁業界共同努力。

OpenAI表示正在開源OpenAIEvals軟件框架,它被用于創建和運行基準測試以評估GPT-4等模型,同時可以逐樣本地檢查模型性能。

ChatGPT直接升級至GPT-4版

GPT-4發布后,OpenAI直接升級了ChatGPT。ChatGPTPlus訂閱者可以在chat.openai.com上獲得具有使用上限的GPT-4訪問權限。

要訪問GPT-4API,用戶可以注冊等待。OpenAI會邀請部分開發者體驗。

獲得訪問權限后,用戶目前可以向GPT-4模型發出純文本請求。至于價格方面,定價為每1k個prompttoken0.03美元,每1k個completiontoken0.06美元。默認速率限制為每分鐘40k個token和每分鐘200個請求。

GPT-4的上下文長度為8,192個token。OpenAI還提供了32,768個token上下文版本的有限訪問,該版本也將隨著時間自動更新(當前版本gpt-4-32k-0314,也支持到6月14日)。定價為每1Kprompttoken0.06美元和每1kcompletiontoken0.12美元。

以上,就是今天OpenAI關于GPT-4的所有內容了。令人不滿的一點是,OpenAI公開的技術報告中,不包含任何關于模型架構、硬件、算力等方面的更多信息,可以說是很不Open了。

不管怎樣,迫不及待的用戶大概已經開始測試體驗了吧。

最后,也想問一下讀者,看完GPT-4的發布,你有何感想。

Tags:GPTPENOPENNAI人工智能chatGPTapenft幣最新消息價格OPENX價格SNAIL價格

火幣APP下載
Foresight Ventures: LSD產品與DeFi生態的整合

Tips: 上海升級將會帶來LSD賽道基本面的變化ETHstaking收益率將成為鏈上基準收益.

1900/1/1 0:00:00
香港的比特幣往事_比特幣:NFT

喜歡的兩個散文家,一個是汪曾祺,一個是舒國治,兩者都是閑人,從文氣中滿溢出來的閑。似乎天大的事,都不必慌張,拖把竹椅坐下來,三三兩兩就講明白了.

1900/1/1 0:00:00
中金:硅谷銀行事件與潛在的流動性風險敞口_BER:BLO

事件 北京時間3月10日凌晨,硅谷銀行宣布大規模再融資引發市場擔心其流動性和資產負債表狀況,股價跌超60%,進而波及整個美國銀行板塊和美股市場,富國和美國銀行跌幅都在6%以上.

1900/1/1 0:00:00
雷曼時刻重演?一探硅谷銀行流動性危機事件始末_虛擬資產:SAFEMOONOMICS

今天早上起床以后,許多同僚發來有關?SVB?的情況。坦白說,要高頻地跟蹤美元區的金融體系風險,僅靠幾個人是很難做到的,在聯儲激進緊縮的前提下,筆者實際上已經做了很多風險跟蹤的預備工作了,此前重點.

1900/1/1 0:00:00
zkSync主網交互教程_NFT:KSY幣

**友情提示:主網交互會有一定的gas成本!*zkSync是一種ZKrollup,一種使用加密有效性證明在以太坊上提供可擴展和低成本交易的無信任協議.在zkSync中,計算是在鏈下執行的.

1900/1/1 0:00:00
鏈興·對話 | 四年磨一劍,對話 Web3 底層基礎設施 MAP Protocol 核心開發者_MAP:PRO

Softwareiseatingtheworld! 00內容摘要 本文重點整理摘錄了James對MAPProtocol的介紹及對跨鏈、zk、web3等方向的思考.

1900/1/1 0:00:00
ads