他本是一位普普通通的高中教師,卻活生生養出一個估值40億美元獨角獸。
而且方法也是非常的獨特——
打造了世界最大的免費開源數據集,卻從未從中收取過一分錢,也婉拒了各類工作的邀請。
他叫舒曼,在德國漢堡市的高中教物理和計算機科學。
兩年前他創立了LAION,如今被用于各種生成模型,包括谷歌Imagen、Parti,以及驚艷全球的StableDiffusion。
就連StableDiffuision背后公司StabilityAI的創始人曾親自來送錢時,他都表現出嗤之以鼻的樣子,認定“這個人一定是瘋了”。
或許他怎么也沒想到,只不過兩年前靈機一動,就帶來了生成式AI的劇變。
受DALL-E啟發
2021年新年之際,OpenAI重磅推出DALL-E,GPT-3首次成功實現跨界:
FTX前律師事務所被指控成立影子實體挪用FTX客戶資金:金色財經報道,一群FTX客戶向加州地方法院提交的一份文件稱,FTX的前律師事務所Fenwick & West LLP設立了多個“影子實體”,允許FTX聯合創始SBF和其他高管采取創造性但非法的策略來延續欺詐行為。
該訴訟稱,該律師事務所向 FTX 提供的服務“遠遠超出了律師事務所應提供且通常確實提供的服務”,例如以規避監管審查的方式安排 FTX US 的收購結構,以及提供員工執行律師事務所提出的戰略。
這些“影子實體”被命名為North Dimension 和 North Wireless Dimension,訴訟稱它們挪用了 FTX 客戶資金。[2023/8/9 21:34:08]
只需對著它說上一段話,就能生成對應圖片。
一時間風光無兩,吳恩達在內的科技大佬們都激動了,網友們都稱其為甲方克星。
但在德國漢堡市郊區的一間房屋內,這位高中教師舒曼卻產生了對數據私有化的擔憂:
如果這一切都集中在一家、兩家或三家公司,那將對社會產生非常糟糕的影響。
韓國檢方對WeMade及WEMIX Token做市商展開全面強制調查:6月30日消息,今日上午,韓國檢方已對該國上市游戲公司WeMade及其WEMIX Token做市商展開全面強制調查,包括扣押和搜查。此次搜查和扣押系針對WEMIX投資者于5月12日向檢方提起的投訴,該公司被控欺詐、貪污等罪名。
報道稱,自2021年以來,WeMade引發了多次爭議。包括2020年11月至2022年1月,WeMade在未通知WEMIX用戶的情況下清算了價值2255億韓元的WEMIX,并用這筆資金收購了一家公司,引發巨大爭議。此外,2022年底,WEMIX發行量涉嫌虛假披露,并與該國交易平臺發生法律糾紛,WEMIX最終被韓國幾家主要加密交易平臺下架。[2023/6/30 22:10:21]
當時,OpenAI發表了背后關鍵模型CLIP的論文。論文中顯示,CLIP在4億個圖像-文本對上進行了預訓練,在沒有精細調整的情況下,最終在各種多模態基準中實現高性能。
數據:ETH波段交易巨鯨于今日凌晨1:30買入8800枚ETH:6月6日消息,據鏈上數據分析師余燼監測,昨晚市場下跌后,其監測的某個 ETH 波段交易巨鯨地址于今日凌晨 1:30 將 1590 萬 USDT 轉入 Binance 平臺,半小時后從 Binance 提幣 8800 枚 ETH,買入均價可能為 1807 美元。
據悉,該地址此前于 5 月 29 日 ETH 上漲后將 23,085 枚 ETH(價值約合 4416 萬美元)轉入 Binance,當時 ETH 價格為 1913 美元。[2023/6/6 21:18:15]
由此可見數據集對于CLIP的重要性,但OpenAI并沒有進行公開,它只開源了CLIP的代碼和模型權重。
于是乎,舒曼就開始在Discord網羅了一群同為AI愛好者的朋友,嘗試復制OpenAI同等水平的「文本-圖像對」數據集。
沒想到這一搞就搞了大半年,直到2021年8月他們首次發布了LAION-400M數據集,里面包含了4.13億圖像-文本對。
回顧整個創建過程,舒曼對彭博社這樣形容:
歐洲央行:數字歐元應優先考慮在線、點對點支付:金色財經報道,歐洲央行在網站上公布的文件稱,數字歐元應該優先考慮網上購物和在朋友之間進行支付。商店和政府的轉賬可能需要更長的時間才能發展,但基本的個人使用應該是免費的。其他用途,如納稅、領取福利金,甚至在實體店支付,只會在隨后的中央銀行數字貨幣 (CBDC) 的第二階段開發中出現。[2023/2/24 12:27:28]
就像是用數百萬張抽認卡來教一個人一門外語。
他們用一個非盈利組織CommonCrawl在2014年到2021年期間,抓取的隨機HTML代碼來定位網絡上的圖像,并將這些圖像與描述性文本聯系起來,最后還得根據一定規則來過濾掉不適合的樣本。
比如,刪除了所有文本長度少于五個字符;圖像小于5KB的的樣本;關鍵字帶有NSFW的……幾周之內,他們就擁有了300萬對圖文對。
數據集發布之后就收到了各種反響,被用于諸多論文和實驗。其中最具代表性的,就是GoogleBrain去年發布的Imagen——文本生成圖像的擴散模型。
Pantera Capital CEO:比特幣的下一個牛市即將到來:金色財經報道,Pantera Capital首席執行官Dan Morehead認為,加密貨幣的寒冬將很快結束,比特幣價格將再次上漲。他提醒說,這樣的起伏是正常的,在過去十年中已經發生過多次,包括2018年的下跌和未來幾年的連續牛市。我們已經經歷了三個大熊市周期。實際上,我認為我們已經在6月份觸底,我們正在進入下一輪牛市。這可能會有困難,可能需要一段時間,但我認為我們進入了反彈的下一階段。在談到比特幣的未來價格時,Morehead預測,比特幣的價格將繼續以每年約2.5倍的速度上漲。盡管如此,他聲稱加密領域最近已經發生了變化,不再只圍繞比特幣和以太坊流通。(cryptopotato)[2022/9/8 13:16:38]
與此同時,更多機構開始關注到這個非盈利組織并給予資金支持。2021年他們就收到了HuggingFace的一次性捐贈。
但印象最深的一次,還要屬一個對沖基金經理來到Discord聊天室。
當時他二話不說直接送錢,大概意思是:我給你們支付算力費用,沒有任何附加條件。
舒曼團隊對這個行為嗤之以鼻,甚至覺得他是個瘋子:
一開始我們非常懷疑,但大概一個月后,我們獲得了價值近1萬美元的云計算服務。
后來,這個所謂的“瘋子”創辦了StabilityAI,使用LAION數據集推出了StableDiffusion,引領了生成式AI的浪潮,順便還拐走了LAION組織的兩個研究人員。
如今StabilityAI正在尋求40億美元估值,這主要歸功于LAION提供的數據。
據彭博社消息,舒曼卻并沒有從LAION中獲利,原因很簡單:不感興趣,希望保持這份工作的獨立性。
因此他還婉拒了各類工作邀請,依舊選擇在德國漢堡當一名普普通通的高中老師。
本人:數據集不應該被監控
即便如此,隨著LAION知名度打響,他還是避免不了地卷入到各種紛擾之中。
目前,LAION已經發布了10項數據集,最具代表性的就是去年3月發布的LAION-5B,由58.5億個圖像文本組成,是當前最大的免費開源數據集。
作為LAION-400M的繼任者,它收到了來自HuggingFace、StabilityAI以及Doodlebot資助。
結果一發布就遭到了不小的爭議,網友們紛紛質疑其數據未經整理,導致充斥大量的非法內容,對此LAION工程師RomainBeaumont回應:
非標注數據集是自我監督學習的基礎,這是機器學習的未來。沒有人工標注的圖像/文本是一項功能,而非錯誤。
早在Imagen發布時,也專門針對LAION-400M做出警示:因為依賴于這種未經整理的網絡數據,集成了大模型的社會偏見和限制,因此不適合公開使用。
據彭博社消息,為了打造LAION,舒曼團隊從亞馬遜網絡服務、Shopify等公司獲取視覺數據,還有包括YouTube縮略圖、各類新聞網站上的內容。
對此舒曼表示,任何在網上免費提供的東西都是公平競爭,歐盟也沒有人工智能法規。
更何況,也沒有人知道OpenAI實際上用什么樣的數據集訓練AI的。
目前,LAION被迫卷入兩場訴訟之中,一起是StabilityAI與Midjourney等集體訴訟,被指使用藝術家的版權圖片來訓練他們的模型;
另一起是GettyImages起訴StabilityAI,稱其1200萬張照片被LAION取走,并用來訓練StableDiffusion。
而舒曼將LAION比作大信息技術海嘯之上一艘“小型研究船”,采取海下的樣本向世界展示。
其實早在構建數據庫時,他們就在運行一個自動化過濾工具,不過舒曼感興趣的不是清理,而是從這些資產中學習。
我們本可以從公布的數據中過濾掉暴力,但我們決定不這樣做,因為這將加快暴力檢測軟件的開發。
現在更多關于監管的建議在推動,各個科技大廠也在采取相應的措施,比如英偉達就開源了護欄工具,來防止大模型來胡說八道。
但在舒曼看來,數據集不應該被監控。這也正是當時創建LAION時候的初心。
他還警告,如果我們試圖放慢速度、過度監管,就會有很大的危險,最終只有少數大公司能負擔得起所有的正式要求。
前段時間,在LAION與全球志愿者的合力之下,他們完成了ChatGPT最大開源平替OpenAssistant的發布。
60萬余條訓練數據全部由人工生成,涵蓋了廣泛的話題和語言風格,一時間引發眾人關注,HuggingFace也直接拿來用來構建它自己的聊天軟件HuggingChat。
拿著德國鐵飯碗
不可否認的是,他已經在用開源數據集,加劇了生成式AI的浪潮。
但在舒曼的個人網站上,看到的只是一位兩個孩子的父親,在德國當著終身制公務員,游走于中學校之間講授物理和計算機科學。
舒曼擁有維也納大學計算機科學與物理學學位。在學習這兩個專業之前,他還學了心理學。。
除此之外,他還在學習表演,制作了一部關于孩子學習的紀錄片「SchoolsofTrust」。
最近,這位高中教師也沒閑著,他還將作為2023年智源大會嘉賓參與邀請報告與線上論壇環節。
參考鏈接:https://laion.ai/blog/laion-400-open-dataset/https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicornshttp://christoph-schuhmann.de/https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/https://laion.ai/projects/
來源:元宇宙之心
比特幣網絡的創新 作為數字黃金,比特幣的市值占據了加密貨幣市場的一半以上。盡管比特幣一直扮演著「點對點的電子現金系統」的角色,但當前加密世界的精彩大都基于智能合約,與以太坊這樣的「世界計算機」相.
1900/1/1 0:00:002023年4月28日,據Beosin-EagleEye態勢感知平臺消息,0vixProtocol項目遭受閃電貸攻擊,損失約為200萬美元.
1900/1/1 0:00:00原文來源:Biteye 想掌握?Brc-20?生態中最全的網站信息?看這一篇就夠了!從怎么鑄造、如何計算成本、到怎么查?Gas、如何交易.
1900/1/1 0:00:00原文作者:蔣海波,PANews以太坊的質押從?2020?年?11?月開始,直至最近的上海升級才開通贖回功能,隨著質押率的上升,質押收益率也在不斷下降.
1900/1/1 0:00:00原文作者:Biteye核心貢獻者?LouisWang原文編輯:Biteye核心貢獻者Crush 相關閱讀: 超全指南:八類網站帶你玩轉?BRC-20?生態 01比特幣網絡的創新 作為數字黃金.
1900/1/1 0:00:00來源:鋅刻度,作者|陳鄧新,編輯|高智 圖片來源:由無界AI工具生成AI,成為游戲的重要一環。當AIGC大潮起,各行各業都面臨競爭力重塑,游戲行業也不例外,大大小小的游戲企業紛紛加碼,渴望搶占技.
1900/1/1 0:00:00