以太坊交易所 以太坊交易所
Ctrl+D 以太坊交易所
ads

ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_CHA:bcha幣改名

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

Web3日活用戶數排名:BNB Chain第一約110萬,Polygon第二約39萬:金色財經報道,數據網站Token Terminal推特發文稱,各主流公鏈和應用的Web3日活躍用戶數排名顯示如下:

1、BNB Chain:110萬;

2、Polygon:39萬;

3、Ethereum:34萬;

4、Solana:12萬;

5、Fantom:5.82萬;

6、Arbitrum:5.8萬;

7、OpenSea:5.4萬;

8、Optimism:4.9萬;

9、Uniswap:4.4萬;

10、Avalanche:3萬。

有從業者分析稱,這些數據存在水分,需要清洗掉“機器用戶”。這意味著,Web3的真實用戶數可能要低于該數據。考慮到一個真實用戶可能存在多個地址,Web3用戶數或許要遠小于該數據。[2022/12/19 21:52:50]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

鏈上ChainUP推出定制化ETF解決方案,創新支持杠桿倍數自定義:7月28日,據官方消息,鏈上ChainUP推出定制化ETF解決方案,系全球首家支持定制化ETF解決方案的技術服務商。

與傳統ETF產品最大3倍收益不同的是,鏈上ChainUP ETF解決方案,支持更高倍數收益自定義,如5倍、8倍、10倍等。此外,還支持起始時間和結算時間等產品功能自定義,提供ETF流動性服務,以及風控策略管理后臺。

鏈上ChainUP表示,該解決方案可向各類交易所開放,無論是否使用鏈上ChainUP提供的交易系統都不影響。鏈上ChainUP,專注用技術手段為交易所提供更加豐富的產品線,為交易用戶提供更多更加專業的金融產品可供投資。

截止目前,鏈上ChainUP已為全球500多家客戶提供了區塊鏈技術服務,其中交易所客戶300多家,覆蓋30多個國家和地區,累計觸達6000多萬全球用戶。[2020/7/28]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

Blockchain.com研究主管:Libra的發布可能會繼續推遲:Facebook最近投資Reliance Jio,有望幫助印度加密貨幣市場的增長。 Blockchain.com研究主管Garrick Hileman表示,就用戶而言,印度是Facebook最大的市場,因此他們一定很想在印度推出Libra。我們仍然相信Libra有潛力通過向數十億人介紹數字貨幣的好處,成為采用加密貨幣的游戲改革者。盡管Libra 2.0試圖解決監管方面的擔憂,但它是否能在印度等市場獲得批準仍遠未可知。可能需要逐個市場地批準Libra的發布,隨著各國政府關注Covid-19及其引發的經濟危機,我們可能會繼續看到Libra的發布被推遲。據此前報道,Facebook 4月22日宣布將收購印度最大私營公司Reliance Jio的股份,投資金額達4357.4億盧比(約合57億美元),是印度科技領域最大的外國直接投資(FDI)。(FXStreet)[2020/4/28]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAHAIAINChainbcha幣改名VIPchainFrenChainblockchain錢包進不去

火幣網下載官方app
美SEC主席:使用抵押協議的代幣可被視為證券_SEC:ripple幣行情

金色財經報道,美國證券交易委員會主席GaryGensler周三向記者建議,根據美國法律,使用抵押協議的代幣可被視為證券.

1900/1/1 0:00:00
一文梳理9個潛力協議 LSD市場爭奪戰開啟_LSD:lsd幣圈啥意思

上海升級將釋放價值超過270億美元的ETH,這意味著LSD市場的爭奪戰已經開始,它們將圍繞提供最高APR展開.

1900/1/1 0:00:00
zkSync Era主網即將上 測試網如何交互DEX_SWAP:zks幣最新消息

zkSync近期宣布了2.0版本的上線,并稱此版本為zkSyncEra,SyncSwap為近期在zkSyncEra測試網新上線的AMMDex,通過與進行SyncSwap交互,一方面.

1900/1/1 0:00:00
李開復最新萬字演講:AI 2.0是絕對不能錯過的一次革命_元宇宙:人工智能

2022年12月,ChatGPT的橫空出世,讓OpenAI用一個核彈級的應用成果,改變了科學研究和工程應用的范式。2023年3月15日,GPT4發布,人工智能再次吸引了大家的目光.

1900/1/1 0:00:00
金色早報 | Twitter將于3月31日開源所有用于推文推薦的代碼_區塊鏈:區塊鏈賺錢是什么模式

頭條 ▌馬斯克:Twitter將于3月31日開源所有用于推文推薦的代碼金色財經報道,特斯拉CEO馬斯克發布推特表示,Twitter將于3月31日開源所有用于推文推薦的代碼.

1900/1/1 0:00:00
HashKey:2023 值得關注的五大技術趨勢_LAYER:以太坊

圖片來源:由MazeAI生成2023年值得關注的5大技術熱點 以太坊的主要技術升級 Staking相關的技術和產品服務模塊化區塊鏈的優化和「L3」等應用專有Rollup等生態發展ZK跨鏈橋等非擴.

1900/1/1 0:00:00
ads