ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型(LLM)——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
聲音 | 人民網:在黨建、版權保護、金融科技等領域拓展了區塊鏈應用場景:人民網(SH603000)在互動平臺表示,目前,公司主要以人民網區塊鏈研究院為主體開展區塊鏈理論研究,并以中國共產黨新聞網、人民在線公司、人民金服公司為主體探索新型業務,推出的《“鏈”上初心》、人民版權平臺、供應鏈金融科技平臺在黨建、版權保護、金融科技等領域拓展了區塊鏈應用場景。[2019/11/26]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
聲音 | Libra協會COO:如果協會成員真的支持Libra的普惠金融目標,請公開表態:在美國和歐洲的監管審查加強之際,Libra的一位高級官員呼吁協會其他20多名成員為該項目辯護。Libra協會常務董事兼首席運營官Bertrand Perez在8月26日的一封電子郵件中表示:“現在是我們單獨或集體發言的時候了,在2019年底前創造一些動力。” Perez還表示:”如果協會成員真的致力于Libra項目的普惠金融目標,請在下次被問到這個問題時公開說出來。”(bloomberglaw)[2019/8/28]
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和Le Scao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
麻省理工成立金融科技實驗室 主要研究區塊鏈等技術:據外媒消息,近日,美國麻省理工學院(MIT)計算機科學與人工智能實驗室正式宣布成立MIT金融科技實驗室,研究方向主要包括區塊鏈、隱私安全、數據庫系統等。其中,螞蟻金服入選為創始成員。[2018/6/11]
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
徐明星任北京金融局支持的區塊鏈生態投資基金管理人:5月19日晚,在北京金融局支持下,北京區塊鏈生態投資基金正式啟動。據悉,北京區塊鏈生態投資基金規模10億,旨在創建北京地區首家專注無幣區塊鏈應用投資的引導基金。投資領域著力在北京地區區塊鏈生態教育和培訓、非金融貨幣領域的區塊鏈場景應用、區塊鏈底層技術架構研發、區塊鏈技術助力傳統企業和產業轉型升級等幾個方面。OK區塊鏈工程院是該基金的發起合伙人,OK工程院創始人徐明星是基金主要管理人。中心常務理事鄧迪出任該基金總經理。并由中國區塊鏈應用研究中心顧問蘇寧先生、王巍先生擔任本基金顧問。[2018/5/19]
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
蘇寧金融研究院薛洪言:閹割掉虛擬代幣的投機屬性 生存空間是有的:蘇寧金融研究院互聯網金融中心主任薛洪言今日發文稱,央行行長的講話是要品味的,文章表示“琢磨出來的信息是,虛擬代幣作為區塊鏈系統中價值傳遞的介質,是可以服務實體經濟的,只要閹割掉投機屬性,不以“去中心化”、“匿名性”和“跨境性”等特征來擾亂貨幣政策體系,生存空間是有的。”[2018/3/12]
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如The Pile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項(ConvFinQA,FiQA SA,FPB和Headline)表現最佳,在NER(Named Entity Recognition)中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQA SA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
華爾街見聞
媒體專欄
閱讀更多
金色財經 善歐巴
金色早8點
白話區塊鏈
歐科云鏈
Odaily星球日報
Arcane Labs
MarsBit
深潮TechFlow
BTCStudy
鏈得得
金色周刊是金色財經推出的一檔每周區塊鏈行業總結欄目,內容涵蓋一周重點新聞、礦業信息、項目動態、技術進展等行業動態。本文是其中的新聞周刊,帶您一覽本周區塊鏈行業大事.
1900/1/1 0:00:00來源:CoinTelegraph編譯:Dali@Web3CN.Pro跨鏈橋允許去中心化金融(DeFi)用戶在多個區塊鏈上使用相同的代幣.
1900/1/1 0:00:00馬斯克對于人工智能持保留態度似乎已經是一個公開的事情。此前,他不止一次在公開場合稱人工智能是一項危險的技術,同時也各種”陰陽“OpenAI跟其劃清界限.
1900/1/1 0:00:00▌外媒:美國前總統特朗普被正式拘捕4月5日消息,當地時間4日下午,特朗普抵達位于紐約曼哈頓下城區的曼哈頓刑事法院,準備出庭接受傳訊.
1900/1/1 0:00:00作者:徐遠(北京大學金融學教授) 看見風暴 開始關注比特幣,是很早的事情。早先市場不成熟,有很多免費的利潤,導師國青先生看得清楚,談笑間輕松撿錢.
1900/1/1 0:00:00每秒就有2張卡牌售出,一套寶可夢卡牌拍賣出近40萬美元高價……當前,國內卡牌市場異常火爆,并被長期看好。有分析稱,中國的卡牌市場在未來3年,有望超過300億元人民幣,其滲透率尚有巨大的提升空間.
1900/1/1 0:00:00