以太坊交易所 以太坊交易所
Ctrl+D 以太坊交易所
ads
首頁 > 瑞波幣 > Info

數據科學家不得不知的5種概率分布_STR:TRIAM Network

Author:

Time:1900/1/1 0:00:00

作者|ByLucianoStrika來源|CDA數據分析研究院5ProbabilityDistributionsEveryDataScientistShouldKnow

概率分布就像3D眼鏡。它們允許熟練的數據科學家識別其他完全隨機變量的模式。在某種程度上,大多數其他數據科學或機器學習技能都基于對數據概率分布的某些假設。這使得概率知識成為統計學家構建工具箱的基礎。如果您正在尋找如何成為數據科學家的第一步。不用多說,讓我們切入正題。

什么是概率分布?

在概率論和統計學中,隨機變量是一個隨機值的東西,比如“我看到的下一個人的身高”。給定一個隨機變量X,我們想要一種描述它的值的方法。更重要的是,我們想要描述該變量獲取特定值x的可能性。

例如,如果X是“我的女朋友有多少只貓”,那么這個數字可能是1的非零概率。有人可能會認為這個值甚至可能是5或10的非零概率。然而,沒有辦法一個人會有負數的貓。因此,我們想要一種明確的數學方法來表達變量X可以采用的每個可能值x,以及事件的可能性。

鏈上數據分析網站DefiLlama推出DEX聚合器:1月3日消息,鏈上數據分析網站DefiLlama將推出DEX聚合器,該產品仍處于測試階段,可從8種不同的聚合器中獲得最優惠的價格,包括1inch、Matcha、Paraswap、Cowswap等,具體報價和Gas成本由DefiLlama獨立核實,并支持私有模式以防泄露IP,還包括Approval控制,支持22條區塊鏈網絡。[2023/1/3 22:22:18]

為了做到這一點,我們定義函數P,使得P是變量X具有值x的概率。對于間隔而不是離散值,我們也可以要求P或P。這將很快變得更加重要。P是變量的密度函數,它表征變量的分布。

隨著時間的推移,科學家們開始意識到自然界中的許多事物,現實生活往往表現相似,變量共享一個分布,或具有相同的密度函數。

有趣的是,對于P是一個實際的密度函數,有些事情必須適用。

對于任何值x,P<=1。是再確定不過的事情了。

對于任何值x,P>=0。也沒有什么疑義。

和最后一個:所述之和的P的所有可能的值X為1。

最后一個意味著“X在宇宙中取任何價值的概率,必須加起來為1。Billions項目組離散與連續隨機變量分布最后,隨機變量可以被認為屬于兩組:離散和連續隨機變量。

BSN聯盟秘書長:數據價值的發揮需要更全面的技術支持,包括區塊鏈存儲:金色財經現場報道,3月25日,由中國中小企業協會產業區塊鏈專委會主辦的中國中小企業協會第一屆區塊鏈創新高峰論壇將在3月25日在海口舉辦,金色財經全程直播會議議程。BSN聯盟秘書長、中國移動設計院數字經濟技術推進組組長譚敏進行主題演講《打造云網鏈融合的基礎設施 賦能千行百業數字化轉型》。譚敏表示,進入數字經濟時代,除了具備規模性、自繁衍性、外部性、可復制性等互聯網時代的典型特征之外,數據要素自身也在不斷發展演進。進一步具備了安全性、可靠性、可確權、可定價等關鍵特征,以保證數據要素的便捷交易與共享,充分發揮其基礎性和市場化價值。數字經濟時代數據要素拓展的關鍵特征是及時性、可靠性、安全性。數據價值的發揮需要更全面的技術支持,包括感知技術、傳輸技術、區塊鏈存儲與治理技術、應用技術。[2021/3/25 19:17:07]

離散隨機變量

離散變量具有一組離散的可能值,每個值都具有非零概率。例如,如果我們說,當翻轉硬幣時X=“1表示花色,0表示數字”然后P=P=0.5。但是請注意,離散集合不必是有限的。被用于建模的一些事件的概率的幾率p之后發生k的概率。它具有以下密度公式。P(X=k)=p(1-p)^k0<=p<=1其中k可以采用具有正概率的任何非負值。注意所有可能值的概率之和如何仍然加起來為1。

動態 | 以太坊錢包Shitcoin Wallet正注入惡意Java代碼竊取數據:據Bitcoinist 12月31日消息,安全和反網絡釣魚專家Harry Denley發推文警告稱,一個可作為Chrome瀏覽器擴展程序的以太坊錢包“Shitcoin Wallet”正在注入惡意javascript代碼,企圖從瀏覽器窗口抓取數據并發送至遠程服務器erc20wallet.tk。[2019/12/31]

連續隨機變量

如果你說X=“從我頭上隨機拔毛的長度”X可以采用哪些可能的值?我們可能都認為負值在這里沒有任何意義。但是,如果你說它只是1毫米,而不是1.1853759......或類似的東西,我會懷疑你的測量技巧,或你的測量錯誤報告。連續隨機變量可以在給定間隔中取任何值。因此,如果我們為其所有可能值分配了非零概率,則它們的總和不會加起來為1。

為了解決這個問題,如果X是連續的,我們為所有k設置P=0,而是為X賦予一個非零的機會獲取某個間隔的值。為了表示在值a和b之間放置X的概率,我們說P。而不是僅僅在一個密度函數替換值,得到P為X連續變量,你會集成X的密度函數a到b。

動態 | 權威數據顯示:當前能夠監測到的歸零幣或空氣幣達到755種 傳銷幣102種:11月18日晚,央視焦點訪談欄目聚焦區塊鏈。節目中,記者在調查中發現,隨著區塊鏈熱潮,危害最嚴重的亂象出現在數字貨幣上,這些項目將區塊鏈概念和金融知識、貨幣知識混淆在一起,混水摸魚,普通百姓根本難以分辨,欺騙性極強。國家互聯網應急中心相關部門提供的數據顯示,眼下能夠監測到的歸零幣或空氣幣達到755種,傳銷幣102種。[2019/11/18]

哇,你已經完成了整個理論部分!現在您已經知道了概率分布是什么,讓我們了解一些最常見的分布!

伯努利概率分布

具有伯努利分布的隨機變量是最簡單的。它代表一個二進制事件:“這件事發生”VS“這種情況沒有發生”,并采取了值p作為其唯一的參數,它代表的概率是會發生的事件。具有參數p的伯努利分布的隨機變量B將具有以下密度函數:

P=p,P=

這里B=1表示事件發生,B=0表示事件沒發生。注意兩個概率如何加起來為1,因此B的不可能會是其他值。

統一概率分布

有兩種均勻隨機變量:離散變量和連續變量。

離散均勻分布將采取(有限的)值的集合s,為每個值分配1/n的概率,其中n是S中元素的數量。這樣,如果我的變量Y在{1,2,3}中是均勻的,則每個值出現的概率為33%。

動態 | 交易所 Cryptopia 或將因缺少備份數據庫賠償 200 萬美元:據區塊鏈媒體 The Merkle 報道,新西蘭加密貨幣交易所 Cryptopia 本身并沒有對其會計數據庫進行適當備份,而是由一家亞利桑那州的第三方服務提供商負責管理這些信息。這家位于亞利桑那州的公司正在停止對 Cryptopia 的服務,并要求 200 萬美元的賠償。如果該公司沒有得到相應的報酬,那么所有必要的數據都有可能永遠丟失。目前,事態將如何發展還有待觀察,因為 Cryptopia 似乎不太可能在這方面提供任何幫助,使用用戶資金為這家亞利桑那州公司支付 200 萬美元也不是一個可行的選擇。[2019/5/27]

在骰子中可以找到離散均勻隨機變量的典型情況,其中典型的骰子具有一組值{1,2,3,4,5,6}。連續均勻分布,只取兩個值a和b作為參數,并為它們之間的間隔中的每個值分配相同的密度。這意味著Y在一個區間(從c到d)取值的概率與相對于整個區間的大小成比例。因此,如果Y在a和b之間均勻分布,那么這樣,如果Y是1和2之間的均勻隨機變量,P=1且P=0.5

Python的random包的random方法在0和1之間采樣均勻分布的連續變量。有趣的是,可以證明,在給定均勻隨機值生成器和一些微積分的情況下,可以對任何其他分布進行采樣。

正態概率分布

通常分布的變量在自然界中很常見,它們實際上是標注規格。這實際上就是這個名字的來源。如果你把所有的同事都圍起來并測量他們的身高,或者對測量體重并用結果繪制直方圖,則可能會接近正態分布。當我向您展示探索性數據分析示例時,我實際上看到了這種效果。

還可以證明,如果您采用任意隨機變量的樣本并對這些度量進行平均,并多次重復該過程,則該平均值也將具有正態分布。這個事實非常重要,它被稱為統計學的基本定理。通常分布的變量:

是對稱的,以均值為中心。

可以在真實空間中獲取所有值,但僅在5%的時間內偏離規范的兩個sigmas。

幾乎無處不在。

大多數情況下,如果你測量任何經驗數據并且它是對稱的,假設它是正常的將有點工作。

例如,滾動K骰子并將結果相加將分配非常正常。

對數正態概率分布

對數正態概率分布是正常概率分布的不常見的姐妹。如果變量Y=log遵循正態分布,則稱變量X是對數正態分布的。當在直方圖中繪制時,對數正態概率分布是不對稱的,并且如果它們的標準偏差更大則變得更加如此。我認為對數正態分布值得一提,因為大多數基于貨幣的變量都是這樣的。

如果你看一下與錢有關的任何變量的概率分布,比如

在某個銀行的最新轉賬上發送的金額。

華爾街最新交易量。

一組公司在特定季度的季度收益。

它們通常沒有正態的概率分布,但會更接近對數正態隨機變量。

指數概率分布

指數概率分布也隨處可見。它們與稱為泊松過程的概率概念密切相關。直接從維基百科竊取,泊松過程是“事件以恒定的平均速率連續且獨立地發生的過程”。所有這些意味著,如果:

你有很多活動。

它們以一定的速率發生。

僅僅因為一個發生了另一個發生的機會不改變。

然后你有一個泊松過程。

一些例子可能是來到服務器的請求,在超市中發生的交易,或在某個湖中捕魚的鳥類。想象一下頻率為λ的泊松過程。指數隨機變量模擬事件發生后下一個事件發生所需的時間。有趣的是,在泊松過程中,事件可以在任何時間間隔內發生在0到無窮大之間的任何地方。

這意味著無論您等待多久,事件都不會發生非零事件。這也意味著它可能在很短的時間內發生很多次。在課堂上,我們常常開玩笑的是巴士到達泊松過程。我認為將WhatsApp消息發送給某些人時的響應時間也符合標準。但是,λ參數調節事件的頻率。它將使事件實際發生的預期時間以某個值為中心。這意味著如果我們知道出租車每隔15分鐘通過我們的街區,即使理論上我們可以永遠等待它,我們也很可能不會等待30分鐘。

數據科學中的指數概率分布

這是指數分布隨機變量的密度函數:

假設您有一個來自變量的樣本,并希望查看它是否可以使用指數分布變量建模。最佳λ參數可以很容易地估計為采樣值平均值的倒數。指數變量非常適合用非常罕見但巨大的異常值對任何概率分布進行建模。這是因為它們可以取任何非負值但以較小值為中心,隨著值的增加頻率降低。在特別是異常繁重的樣本中,您可能希望將λ估計為中位數而不是平均值,因為中位數對異常值更為穩健。

結論

總而言之,作為數據科學家,我認為學習基礎知識對我們很重要。概率和統計可能不像深度學習或無監督機器學習那樣華麗,但它們是數據科學的基石。特別是機器學習。根據我的經驗,提供具有功能的機器學習模型,而不知道他們遵循哪種分布,這是一個糟糕的選擇。記住無處不在的指數和正態概率分布以及它們較小的對應物,對數正態分布也是很好的。在訓練機器學習模型時,了解它們的屬性,用途和外觀會改變游戲規則。在進行任何類型的數據分析時,記住它們通常也很好。

進入···解鎖更多精彩內容和專業資訊!

Tags:TRIONSDOMSTRTRIAM NetworkFALCONS幣dome幣前景STRYKZ價格

瑞波幣
閃電網絡通過首次形式化驗證:在數學上和比特幣一樣安全_比特幣:加密貨幣比特幣中國官網聯系方式

免責聲明:本文旨在傳遞更多市場信息,不構成任何投資建議。文章僅代表作者觀點,不代表火星財經官方立場.

1900/1/1 0:00:00
9月VR/AR行業投融資報:全球完成16筆,總金額超75億人民幣_nem:Holo幣是什么幣

據統計,本月全球的投融資筆數,國內外共計完成16筆,國內占3筆、國外占13筆;全球總融資額超75億人民幣,國內共計1.1億人民幣、國外累計10.3億美元.

1900/1/1 0:00:00
“商業幣”與“央行幣”_DAI:數字貨幣交易所官方網址

附有Libra標識的虛擬貨幣創意圖數字穩定幣與中央銀行數字貨幣,有可能在當前及未來形成替代、競爭與合作的關系,并共同對國際貨幣金融體系產生影響.

1900/1/1 0:00:00
哈弗F7周年限量版車型上市 限量777輛,售15.37萬元_DIT:DCT

如果在今年自主品牌企業里,選出一個幾乎每天都能博你眼球的企業來,非長城莫屬。無論是俄羅斯“圖拉”工廠正式下線,還是順利登頂紐約時代廣場大屏,又或是與WEY品牌聯合命名的長征十一號運載火箭成功發射.

1900/1/1 0:00:00
土耳其的熱氣球那么有名,熱氣球公司卻說天不是你想上就能上的_Universa:APP幣是什么幣

在旅游界,如果說到上天,那么最浪漫的或許就是熱氣球了,而全世界最出名的就是土耳其的熱氣球了,不過在土耳其玩熱氣球的時候,限制還是比較多的,主要有兩方面,既然是上天.

1900/1/1 0:00:00
太陽系文明圈時代的貨幣會是什么?未來的星際貨幣又會是怎樣?|SFW漫談未來世界的貨幣(下)_新大陸:新大陸人工智能技術應用

漫談太陽系文明圈時代的貨幣如果人類文明擴展到了整個太陽系,其經濟形態將是很不容易預測的。不過,許多科幻小說和電影都預言,在太空中的人類殖民地終將獨立,脫離地球文明的控制.

1900/1/1 0:00:00
ads