BTC/HKD+0.17%
HK$ 612563
$ 78624.5

ETH/HKD-1.38%
HK$ 11956
$ 1534.59

LTC/HKD+2.06%
HK$ 557.06
$ 71.5

DOT/HKD+0.02%
HK$ 28.03
$ 3.598

ADA/HKD+4.13%
HK$ 4.65
$ 0.597

SOL/HKD+1.27%
HK$ 841.58
$ 108.019

XRP/HKD+1.47%
HK$ 14.81
$ 1.901

DOGE/US+3.06%
HK$ 1.18
$ 0.151

以太坊交易所最好的以太坊交易所

幣安

世界排名第一的以太坊交易所

URL：https://www.binance.com

火幣

成立於2013年的以太坊交易所

URL：https://www.huobi.com

歐易OKX

成立於2014年的以太坊交易所

URL：https://www.okx.com

一文了解 ChatGPT 等 LLMs 得到明顯改進的 3 個變化_CHIN:CHI

Author：

Time：1900/1/1 0:00:00

原文作者：Tanya Malhotra

來源：Marktechpost

近年來，大型語言模型（Large Language Models，LLMs）在全世界受到了廣泛贊賞，并在自然語言處理領域備受歡迎。這使我們能夠使用比以往任何時候都更好、更清晰的語言理解來描述智能系統（Intelligent Systems）。

諸如 GPT-3、T5、PaLM 等 LLMs 的性能有了顯著提高，并且這些模型將繼續存在，因為它們可以完成從通過學習閱讀來模仿人類，到生成文本和總結長段落內容的所有工作。而根據一些深入的研究，如果 LLM 的規模很大，那么它的表現就會很好。通過在大量數據上訓練這些模型，它們可以理解人類語言的語法、語義和語用學。

SBF律師否認在刑事欺詐案中的證人篡改指控:金色財經報道，在最近給主審法官的一封信中，FTX創始人Sam Bankman-Fried（SBF）的法律團隊堅決否認在刑事欺詐案中篡改證人的指控。律師們強烈反駁了檢方的指控，聲稱SBF與《紐約時報》記者的討論遠不構成篡改證人。律師表示，他確實與《紐約時報》記者接觸過，甚至分享了某些個人文件。然而，他的當事人沒有違反任何有關此案的保護令，也沒有違反任何保釋條件或管轄其行為的法律法規。[2023/7/25 15:56:15]

由 OpenAI 開發的流行的大型語言模型 ChatGPT 之所以發展得如此之快，正是因為采用了人類反饋強化學習（RLHF）等先進技術。通過 RLHF，機器學習算法結合并使用人工輸入提高了模型的性能。它針對預訓練的 LLM 進行了微調，用于開發聊天機器人、虛擬助手等任務。

英國財政大臣：英國央行認為硅谷銀行倒閉事件不會造成系統性風險:金色財經報道，英國財政大臣亨特：英國央行認為硅谷銀行倒閉事件不會造成系統性風險。[2023/3/12 12:58:28]

此外，ChatGPT 等 LLMs 所基于的預訓練基礎模型也得到了明顯的改進。這主要是由于三個方面的變化：

1.實踐證明，模型的擴展性（Scaling）對提高其性能很有幫助。以 Pathways 語言模型（Pathways Language Model，PaLM）為例，該模型通過擴展小樣本學習（few-shot learning）大大影響了其性能，小樣本學習可以減少根據具體應用調整模型所需的特定任務訓練實例的數量。

Dumpies項目Discord服務器已被入侵:金色財經報道，據CertiK監測，Dumpies項目Discord服務器已被入侵，黑客發布了網絡釣魚鏈接。在團隊確認他們已經恢復服務器的控制權之前，請勿點擊任何鏈接。[2023/3/9 12:51:05]

通過使用 Pathways 語言模型在 6144 TPU v4 芯片上擴展和訓練 5400 億個參數，PaLM 展示了重復擴展的好處，其表現超過了各種傳統模型，并顯示出很大的進步。因此，深度和寬度的擴展都是提高基礎模型性能的一個重要因素。

2.另一個變化是在預訓練時增加標記數量的過程。像 Chinchilla 這樣的模型（開源語言模型）已經證明，通過增加預訓練數據，大型語言模型的表現會更好。

派盾：V神向土耳其地震捐款地址捐贈1ETH:金色財經報道，據派盾監測，以太坊聯合創始人Vitalik Buterin將231,481枚USDC轉至Gemini，并向土耳其地震捐款地址捐贈1ETH。[2023/2/10 11:59:44]

Chinchilla 是一個計算最優模型。在相同的計算預算下，在 70B 參數和比 Gopher 模型多四倍的數據上進行訓練，Chinchilla 的表現一致優于 Gopher，它甚至比 GPT-3、Jurassic-1 和 Megatron-Turing NLG 等 LLMs 效果更好。這清楚地描述了對于每一個計算最優的訓練，標記的數量應該相應地縮放——即模型大小的兩倍，因此訓練標記的數量應該是兩倍。

3.第三個變化是使用干凈和多樣化的預訓練數據。Galactica 的性能證明了這一點，它是一種存儲、混合和推理科學知識的大型語言模型。經過幾篇科學論文文本的訓練，Galactica 的表現優于 GPT-3、Chinchilla 等模型。另一個大型語言模型 BioMedLM 是一種針對生物醫學文本的特定領域 LLM，在針對特定領域數據進行訓練時，它表現出了巨大的性能提升。它清楚地表明，在特定領域的數據上進行的預訓練勝過在通用數據上的訓練。

LLMs 的成功無疑歸功于多種因素的混合，包括 RLHF 的使用和預訓練基礎模型的發展。這三個變化極大地影響了 LLMs 的性能。此外，GLaM（通用語言模型）通過使用稀疏激活的混合專家架構（Mixture-of-Experts architecture），以更少的訓練成本擴展模型的容量，從而顯著提高了性能。因此，這些變化為更高級的語言模型開辟了道路，而這些模型將繼續讓我們的生活變得輕松。

DeFi之道

個人專欄

閱讀更多

金色財經善歐巴

金色早8點

Odaily星球日報

歐科云鏈

Arcane Labs

深潮TechFlow

MarsBit

BTCStudy

澎湃新聞