BTC/HKD-0.14%
HK$ 642773
$ 82502

ETH/HKD-1.5%
HK$ 13676
$ 1755.3

LTC/HKD-4.05%
HK$ 614.24
$ 78.84

DOT/HKD-0.83%
HK$ 30.24
$ 3.881

ADA/HKD-3.64%
HK$ 4.87
$ 0.625

SOL/HKD-1.99%
HK$ 897.61
$ 115.211

XRP/HKD-2.57%
HK$ 16.11
$ 2.068

DOGE/US-3.6%
HK$ 1.25
$ 0.161

以太坊交易所最好的以太坊交易所

幣安

世界排名第一的以太坊交易所

URL：https://www.binance.com

火幣

成立於2013年的以太坊交易所

URL：https://www.huobi.com

歐易OKX

成立於2014年的以太坊交易所

URL：https://www.okx.com

ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_GPT:Champignons of Arborethia

Author：

Time：1900/1/1 0:00:00

撰文：Tanya Malhotra

來源：Marktechpost

編譯：DeFi 之道

圖片來源：由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功，大型語言模型（LLM）正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI 開發的 ChatGPT 是一個自然語言處理模型，允許用戶生成有意義的文本。不僅如此，它還可以回答問題，總結長段落，編寫代碼和電子郵件等。其他語言模型，如 Pathways 語言模型（PaLM）、Chinchilla 等，在模仿人類方面也有很好的表現。

南非太陽能公司Sun Exchange用比特幣向投資者支付股息:金色財經報道，據Bitcoin Magazine消息，南非太陽能公司Sun Exchange用比特幣向投資者支付股息。[2022/11/6 12:21:03]

大型語言模型使用強化學習（reinforcement learning，RL）來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理（agent）通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋，而完成地不好則會有相應的懲罰。像 ChatGPT 這樣的 LLM 表現出的卓越性能都要歸功于強化學習。

Graph Blockchain完成對NFT公司New World的收購:7月5日消息，加拿大區塊鏈公司Graph Blockchain以600萬美元的價格完成對NFT公司New World的收購，根據股份交換協議，收購價格通過發行公司資本中的46,153,846個對價單位來支付，每個對價單位的認定價格為0.13美元，每個對價單位由一股普通股和一份普通股購買權證組成。每個認股權證允許持有人在交易結束后的24個月內，以每股0.18美元的行使價額外購買公司的普通股。

此外，如果New World在2021年實現最低凈收入1,500,000美元、凈利潤百分比最低為25%以及2022年凈收入達到6,000,000美元且凈利潤百分比最低為50%，則還可賺取高達13,000,000美元的額外付款。（雅虎財經）[2021/7/5 0:28:56]

ChatGPT 使用來自人類反饋的強化學習（RLHF），通過最小化偏差對模型進行微調。但為什么不是監督學習（Supervised learning，SL）呢？一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢？人工智能和機器學習研究員 Sebastian Raschka 在他的推特上分享了一些原因，即為什么強化學習被用于微調而不是監督學習。

BTMX交易所xDai chain競拍15秒售罄:據官方消息，BitMax (BTMX.com）交易所已于北京時間4月28日21:00開啟xDai chain(STAKE)競拍，并于15秒時間售罄。

最終拍賣價550USDT/份。拍賣品將在4月29日 20:00 - 4月29日 22:00全額發放解鎖。

BitMax交易所將于北京時間4月29日 22:00開啟獨家上線xDai Chain (STAKE)，并開放STAKE/USDT交易對。

更多詳情至BTMX官網查詢。[2020/4/29]

即時加密貨幣兌換商Changelly與Mycelium合作使用戶在不同的貨幣之間進行切換:即時加密貨幣兌換商Changelly與Mycelium合作，Mycelium通過將Changelly的API集成到移動應用程序中，API直接部署到Mycelium的界面，使用戶能夠在不使用Changelly網站的情況下在貨幣之間進行切換。[2018/1/28]

不使用監督學習的第一個原因是，它只預測等級，不會產生連貫的反應；該模型只是學習給與訓練集相似的反應打上高分，即使它們是不連貫的。另一方面，RLHF 則被訓練來估計產生反應的質量，而不僅僅是排名分數。

Sebastian Raschka 分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和 ChatGPT 之間的連貫對話也是必要的，而監督學習無法提供這種獎勵。

不選擇 SL 的第三個原因是，它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上，改變反應中的個別單詞可能對整體損失只有很小的影響，但如果一個單詞被否定，產生連貫性對話的復雜任務可能會完全改變上下文。因此，僅僅依靠 SL 是不夠的，RLHF 對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型，但根據經驗發現 RLHF 往往表現得更好。2022 年的一篇論文《從人類反饋中學習總結》顯示，RLHF 比 SL 表現得更好。原因是 RLHF 考慮了連貫性對話的累積獎勵，而 SL 由于其文本段落級的損失函數而未能很好做到這一點。