以太坊交易所 以太坊交易所
Ctrl+D 以太坊交易所
ads

ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_GPT:Champignons of Arborethia

Author:

Time:1900/1/1 0:00:00

撰文:Tanya Malhotra

來源:Marktechpost

編譯:DeFi 之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型(LLM)正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI 開發的 ChatGPT 是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如 Pathways 語言模型(PaLM)、Chinchilla 等,在模仿人類方面也有很好的表現。

南非太陽能公司Sun Exchange用比特幣向投資者支付股息:金色財經報道,據Bitcoin Magazine消息,南非太陽能公司Sun Exchange用比特幣向投資者支付股息。[2022/11/6 12:21:03]

大型語言模型使用強化學習(reinforcement learning,RL)來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理(agent)通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像 ChatGPT 這樣的 LLM 表現出的卓越性能都要歸功于強化學習。

Graph Blockchain完成對NFT公司New World的收購:7月5日消息,加拿大區塊鏈公司Graph Blockchain以600萬美元的價格完成對NFT公司New World的收購,根據股份交換協議,收購價格通過發行公司資本中的46,153,846個對價單位來支付,每個對價單位的認定價格為0.13美元,每個對價單位由一股普通股和一份普通股購買權證組成。每個認股權證允許持有人在交易結束后的24個月內,以每股0.18美元的行使價額外購買公司的普通股。

此外,如果New World在2021年實現最低凈收入1,500,000美元、凈利潤百分比最低為25%以及2022年凈收入達到6,000,000美元且凈利潤百分比最低為50%,則還可賺取高達13,000,000美元的額外付款。(雅虎財經)[2021/7/5 0:28:56]

ChatGPT 使用來自人類反饋的強化學習(RLHF),通過最小化偏差對模型進行微調。但為什么不是監督學習(Supervised learning,SL)呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員 Sebastian Raschka 在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

BTMX交易所xDai chain競拍15秒售罄:據官方消息,BitMax (BTMX.com)交易所已于北京時間4月28日21:00開啟xDai chain(STAKE)競拍,并于15秒時間售罄。

最終拍賣價550USDT/份。拍賣品將在4月29日 20:00 - 4月29日 22:00全額發放解鎖。

BitMax交易所將于北京時間4月29日 22:00開啟獨家上線xDai Chain (STAKE),并開放STAKE/USDT交易對。

更多詳情至BTMX官網查詢。[2020/4/29]

即時加密貨幣兌換商Changelly與Mycelium合作 使用戶在不同的貨幣之間進行切換:即時加密貨幣兌換商Changelly與Mycelium合作,Mycelium通過將Changelly的API集成到移動應用程序中,API直接部署到Mycelium的界面,使用戶能夠在不使用Changelly網站的情況下在貨幣之間進行切換。[2018/1/28]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF 則被訓練來估計產生反應的質量,而不僅僅是排名分數。

Sebastian Raschka 分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和 ChatGPT 之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇 SL 的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠 SL 是不夠的,RLHF 對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現 RLHF 往往表現得更好。2022 年的一篇論文《從人類反饋中學習總結》顯示,RLHF 比 SL 表現得更好。原因是 RLHF 考慮了連貫性對話的累積獎勵,而 SL 由于其文本段落級的損失函數而未能很好做到這一點。

像 InstructGPT 和 ChatGPT 這樣的 LLMs 同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用 SL 對模型進行微調,然后使用 RL 進一步更新。SL 階段允許模型學習任務的基本結構和內容,而 RLHF 階段則完善模型的反應以提高準確性。

DeFi之道

個人專欄

閱讀更多

金色財經 善歐巴

金色早8點

Odaily星球日報

歐科云鏈

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新聞

Tags:CHAHANChangeGPTChampignons of ArborethiaPhantasmaVNX ExchangeGPT4AI

幣贏交易所
初代加密之王歸來 BitMEX 聯創 Arthur Hayes 被捕的臺前幕后_TME:YES

撰文:Jen Wiecener,New York features編譯:angelilu,Foresight NewsBitMEX 聯合創始人 Arthur Hayes 在結束 6 個月的軟禁后.

1900/1/1 0:00:00
把Web3裝進口袋 Solana手機Saga有何魔力?_LANA:SOL

作者:YuanShan@Web3CN.Pro2月23日,Solana Web3手機Saga發布新的消息,將推出NFT鑄造應用程序Minty Fresh.

1900/1/1 0:00:00
金色觀察 | 7個問題讀懂Base和Optimism超級鏈_OPTI:ISM

文/金色財經0xnaitive2023年2月23日,Coinbase和Optimism之前推特上聯合發布的小藍標終于揭曉.

1900/1/1 0:00:00
上海升級推遲下的板塊機會:L2 頭部生態的 DeFi “內卷”_ROLL:女生用ethereal當網名什么寓意

上海升級推遲下的板塊機會:L2 頭部生態的 DeFi “內卷”L2 是目前討論熱度最高的賽道之一.

1900/1/1 0:00:00
又一個大雷引發市場巨震?Silvergate或將跌落:成也加密敗也加密?_GAT:ERG

作者:Terry 3月1日,加密友好銀行集團 Silvergate Capital布將推遲提交其年度 10-K 報告,(10-K 報告是美國證券交易委員會要求的一份文件.

1900/1/1 0:00:00
或被判定為證券 NBA Top Shot精彩時刻NFT面臨監管“拷問”_NFT:appleb幣團隊

撰文:Nancy 繼美國監管機構向質押、穩定幣等加密業務揮起監管大棒后,NFT 項目也面臨著證券認定的“靈魂拷問”.

1900/1/1 0:00:00
ads