派客國際投資有限公司??蘇文杰
摘要:本文分析了大額BTC和USDT轉賬對瀑布行情的影響。在此過程中使用了近鄰傳播聚類算法對大額轉賬數據進行分類,并根據各類簇的具體情況給出了其對應的威脅水平。
短時間內,行情大幅上漲或下跌的現象被稱作瀑布行情。例如,1分鐘內行情下跌幾百美元,或幾分鐘內上漲一千美元。瀑布行情的出現常常與大額轉賬有關。
本文收集了BTC和USDT的大額轉賬數據,使用了近鄰傳播聚類算法等方法對數據進行了相關分析,嘗試以此角度來構建量化交易策略。
下面先簡要介紹近鄰傳播聚類算法。
一、近鄰傳播聚類算法-
聚類分析
聚類分析是研究物以類聚的一種數理統計方法。聚類分析來自于分類學,在古老分類學里主要依據是經驗以及專業知識。隨著科技的發展,人類認知的深入,有時僅憑經驗和專業知識己經不能滿足分類精細化的要求,單純依靠經驗很難保證分類的準確性。因此研究者將數學應用到古老分類學中,建立了數值分類學。隨著多元統計分析知識的引入,聚類分析又逐漸從數值分類學內分離出來,成為一個重要的研究分支。
聚類分析本質是研究分類問題。根據歸屬類別的差異,可將聚類劃分成硬聚類和軟聚類,硬聚類是指各個對象被分到唯一的一個類簇中,軟聚類則指各個對象以一定程度屬于各個類簇,本文討論的是硬聚類。
聚類分析作為一種無監督學習方法,是在沒有相關背景知識的情況下,通過某種相似性度量,將數據集合并成不同的類簇,使得被分到同一類簇的元素相似程度較高,而不同類簇的元素相似程度較低,從而找到數據的分布結構以及數據屬性間的關系。聚類分析一直是機器學習、數據挖掘、模式識別等領域的一個重要、活躍的研究方向。
常見聚類算法的分類
1、基于層次的聚類算法
層次聚類算法又稱作“系統聚類算法”,它有凝聚算法與分裂算法兩類。凝聚算法初始時將每個樣本點視為單獨的一個類簇,接著合并相似度較高的樣本點,符合終止條件時合并停止,確定最終劃分;分裂算法初始時將所有對象看作一類,再逐步細分,達到終止條件時停止分裂。
央行:大額現金管理與法定數字貨幣研發無關聯:6月30日,央行官微發布消息稱,為深入貫徹落實黨中央、國務院決策部署,補齊相關領域監管短板,規范大額現金使用,遏制利用大額現金進行違法犯罪,央行決定自2020年7月1日起在河北省、10月1日起在浙江省和深圳市試點開展大額現金管理工作。央行對為何要推動大額現金管理、大額現金管理與反洗錢和數字貨幣研發之間有無聯系等個問題作出答復。
央行表示,近年來大額現金交易量持續增長,大額現金支取成為流通現金的重要投放渠道。為適應當前形勢需要,我國亟需加強大額現金管理,以保障合理需求,抑制不合理需求,遏制利用大額現金進行違法犯罪。
對于大額現金管理與法定數字貨幣研發有無關聯問題,央行回應稱大額現金管理是我國借鑒國際經驗,補齊監管短板,提高現金服務水平和效率而采取的管理措施。法定數字貨幣研發是人民銀行順應數字經濟發展趨勢,滿足未來公眾對數字化人民幣的需求,提高普惠金融服務水平而開展的一項前瞻性工作。兩項工作并無關聯。而在反洗錢方面,大額現金管理既立足于引導規范現金實物的流通使用,又是反洗錢的重要內容,也能為打擊非法使用大額現金的行為提供支撐。(北京商報)[2020/7/1]
考慮到大規模數據集的問題,有許多改進的層次聚類算法被提出,如CURE、BIRCH、ROCK等。
2、基于密度的聚類算法
基于密度的聚類算法選取樣本點的密度作為相似性度量準則,首先考察樣本點在等范圍區域內的分布密度,再合并鄰近且密度較大的區域,最后得到若干個密度比較高的區域構成的類簇。
3、基于網格的聚類算法
基于網格的聚類算法首先將聚類對象分成若干個網格單元,再統計網格單元里的密度信息,最后將相鄰的高密度網格單元合并為一類。
4、基于劃分的聚類算法
劃分型聚類算法首先將數據集劃分為k類,每個劃分表示一個聚類簇,然后運用迭代法更新劃分,滿足終止條件時停止迭代。目前在各領域廣為使用的K-means、K-medoids聚類算法均是基于劃分的聚類算法。
動態 | 比特幣鏈上出現6568.79 BTC大額轉賬:據Tokenview大額轉賬數據監測,1Npk開頭的比特幣地址于5月5日14:00(UTC+8)轉出6568.79個BTC,約合3809.9萬美元;其中6566.79個BTC流入了12to開頭的新建比特幣錢包地址,該地址目前排名比特幣富豪榜第25位。交易哈希為3b89ab16a9d363611bddab85d95e90acac7fa2d2a4749c5a1cc227456083d48b。[2019/5/5]
2007年,BrendanJ.Frey和DelbertDueck首次提出了屬于劃分型聚類方法的近鄰傳播聚類算法。
5、基于模型的聚類算法
基于模型的聚類算法為每一個類簇假定一個模型,尋找這些模型與數據集的最佳匹配。這類聚類算法不僅可以獲得數據集的類簇劃分,還可得到到各類簇相應的特征描述,通常有概率模型和神經網絡模型兩類。常用的有高斯混合模型(GMM)、自組織映射(SOM)算法。
聚類算法的特點
1、常用聚類算法的特點
各聚類算法基于不同的聚類思想,其特點不盡相同:對于BIRCH算法、CURE算法等在內的基于層次的聚類算法,其實現雖然較為簡單,但一旦某步聚類完成,將不可撤銷,同時對大數據聚類時的時間耗費較大,需要進行預聚類或采樣以減少時間耗費;基于密度的聚類能夠有效地過濾“噪聲”數據,可對含有復雜形狀類簇的數據進行聚類,但其在計算區域密度時耗費時間較長,而且在界定稠密區和稀疏區上較為困難,對參數較為敏感,多數情況下應用于具有低維度任意形狀的類簇聚類問題;基于網格的聚類算法,時間復雜度、精度均與量化的空間單元數目有關,如何確定合適網格的大小較為困難;基于模型的聚類算法一般需要針對某種具體數據集建立具體的模型,對模型參數取值較為敏感,算法的泛化能力較差,例如SOM算法就對初始權重、學習率以及鄰域半徑的選擇較為敏感;基于劃分的聚類算法如K-means、K-medoids等計算復雜度較低、收斂速度快,目前在工業生產等方面應用較為廣泛,但存在以下問題:
動態 | USDT出現價值約3000萬美元大額轉賬:據Chaindigg數據檢測,今日17:41:58 ,USDT出現兩筆1500萬枚的大額轉賬。由1G47mSr開頭地址向1HpED69t開頭地址和14kmvhQr開頭地址各轉1500萬枚USDT,交易哈希值分別為:a07858670cde5faa16507ab397988d89c2e19e1cb760f9fdf1ab798c0dd93aac和3686f21b92c36170ef683d86f547b4c3c192b6f70868c51bd7705d335f22fffe。[2019/4/7]
基于對象之間的距離進行聚類,傾向于發現大小相近的凸形簇,而在發現任意大小、形狀的類簇上比較困難;
一般需要指定聚類個數,不能完全再現數據本身的結構信息;
需要指定初始聚類中心,算法最終的聚類結果對初始中心的選擇較敏感,容易陷入局部最優;
需要多次調整聚類個數、聚類初始中心,以獲得較優的聚類結果,使得在處理大規模和復雜數據的聚類問題上,獲得較好聚類結果的時間復雜度增大。
2、近鄰傳播聚類算法的特點
近鄰傳播聚類算法基于因子圖理論構造聚類網絡模型,將所有樣本點看作潛在的聚類代表點,作為網絡中的節點。通過節點間的信息傳遞,每個點不斷累積自己作為代表點的證據,最終找到合適的代表點,得到最優的類代表集合使得網絡相似度最大,完成聚類。
與傳統聚類算法相比,近鄰傳播聚類算法無需指定初始聚類中心,有效地解決了常用聚類算法中初始聚類中心的選取問題,適用范圍更廣,同時因子圖中信息傳播技術的引入使得它的計算效率更高。
為了滿足不同的應用需求,相應的基于它的改進和擴展型算法也被大量提出。
近鄰傳播聚類算法簡介
1、距離函數
在聚類分析中,空間相似性計算模型最為常用。而空間關系一般由空間距離來刻畫。
動態 | 昨日BTC大額轉賬數量較前日增長78%:根據Searchain.io數據分析:昨日BTC市場活躍程度明顯增加,交易熱情大幅升溫,昨日流入流出交易所數量較前日增長近100%;大額轉賬數量較前日增長78%。[2018/11/6]
除此之外,常用的還用馬氏距離、閔可夫斯基距離、曼哈頓距離、切比雪夫距離。可根據實際情況選用距離函數。
2、相似度矩陣S的構造
近鄰傳播聚類算法是基于數據間的相似度矩陣S來聚類的。傳統的近鄰傳播聚類算法使用負的歐式距離的平方作為度量相似度的方法,即
3、偏向參數P的設定
矩陣S的對角線上的元素s(k,k)稱為偏向參數P,表示數據點k作為類代表點的合適程度。近鄰傳播聚類算法中將每個點的偏向參數P設為一樣的值,通常選取所有對偶點相似度的中值,即初始時假設所有點成為類代表的可能程度相同。通常,P越大表示更多的點傾向于成為類代表點,故類簇的個數越多,反之類簇的個數越少。故該算法能夠通過變換P值來獲得合適的聚類數。由于消息傳遞過程由相似度s(i,k)和P值同時決定,所以聚類數目與P不是嚴格的線性關系。
4、吸引度矩陣R和歸屬度矩陣A
吸引度矩陣R
歸屬度矩陣A
5、決策矩陣
圖1
二、數據獲取和統計
利用程序獲取自北京時間2019-08-1516:28至2019-08-2111:34時的較大額的轉賬數據,隨后,BTC行情迅速下跌約300美元,以當時的期貨永續合約行情為例:
圖2
這里只分析流入和流出交易所的數據。為了便于比較,將BTC和USDT均換算為USD,由于在數據收集期間兩者價值的波動不大,因此將它們換算為USD后能夠大致了解資金流入和流出的情況。下表列出了數據的統計情況:
表1
BTC再現大額交易 交易賬戶早間曾轉入等額比特幣:據chaindigg數據,北京時間6月9日23點52分,比特幣出現一筆交易額為-4386.79125462的大額交易,交易地址為3LChapmtmp6h53By2sGsgHtdbGNR8c6E3J,查詢交易地址發現,該賬戶為新注冊賬戶,且昨天上午剛剛發生過一次大額轉入交易,交易額為4,386.79125462。[2018/6/10]
為了方便觀察,將上表繪圖如下:
圖3
進一步地,我們還可以更細致地觀察流入交易所的BTC的情況,將其繪圖如下:
圖4
三、大額BTC和USDT轉賬的聚類分析
???流入交易所的大額BTC和USDT轉賬可能對行情產生重要的影響,下面將著重對其進行分析。
數據分布情況
將流入交易所的較大的BTC和USDT轉賬繪圖如下。其中藍色點為BTC轉賬,紅色點為USDT轉賬,橫坐標為北京時間的時間戳,縱坐標為轉賬額度:
圖5
但實際上我們只關心大額轉賬數據,將轉賬額度限定為300萬美元及以上,篩選后可得
圖6
對大額BTC和USDT轉賬進行聚類分析
單獨的個別轉賬能夠造成的影響可能較小,我們主要考慮多個轉賬的協同活動。多個轉賬可能是為了在期貨和現貨上統一部署,完成一系列操作并獲利。
在使用近鄰傳播聚類算法時,假設以如下兩點作為聚類的原則:
1、時間上相差不大于一天的多個轉賬可能是協同的,有較大概率是同一個莊家/大戶想要影響行情,或不同的莊家/大戶想要一同影響行情;
2、資金大致為同一個量級的多個轉賬可能是協同的,也有較大概率是同一個莊家/大戶想要影響行情,或不同的莊家/大戶想要一同影響行情。
同時滿足以上兩點的轉賬有較大概率會成為同一類簇。
為了滿足以上兩個聚類的原則,我們需要根據實際情況改進傳統近鄰傳播聚類算法,即使用新定義的距離公式來計算相似度矩陣,由此可得聚類結果:
圖7
由上圖可知,大額BTC和USDT轉賬被分為了5類。下面將分別給出各類簇對行情的威脅程度,以“威脅水平”來表示。
四、大額BTC和USDT轉賬各類簇的威脅水平
我們借鑒了態勢估計和基于屬性分析的威脅評估思想來確定大額轉賬各類簇的威脅水平的評定。
態勢估計-
兩伊戰爭時美海軍指控系統偶有異常便造成災難性的后果。尤其是USSSTARK及USSVINCENNES兩次事件中指揮官對目標威脅的誤判,促使美軍軍事思想發生變革,提出態勢估計的概念,目的是為了減少由于目標誤判引起與友方或中立方的戰損。目前對態勢估計(situationassessment,SA)的認識尚不統一,比較權威的是美國國防部聯合領導實驗室數據融合小組提出的數據融合處理模型,明確地將態勢和威脅估計作為2級和3級融合處理的內容:將來自許多傳感器和信息源的數據和信息加以聯合、相關和組合以獲得精確的位置估計和身份估計,以完成對戰場態勢和威脅及其重要程度進行實時、完整評價的處理過程。
屬性分析是指對威脅評估過程中的屬性進行分析以獲得對屬性的深入理解,并以此指導威脅評估過程。由于屬性貫穿于威脅評估的全過程,因而包括:屬性的來源及選擇、屬性的重要性度量、屬性與威脅排序的關系以及屬性的使用等。
下面以戰場上一個簡單的情況為例:
1、敵軍步兵部隊抵達我軍陣地前方,此時有可能對我軍發起進攻;
2、一段時間后,敵軍炮兵部隊抵達,步炮協同的情況使得其發起進攻的可能性大幅增加,威脅程度進一步增大;
3、一段時間后,敵軍裝甲部隊抵達,因此極有可能馬上發起進攻,具有很強的威脅性。
下面將借鑒以上的思路來提供一個判定大額轉賬各類簇威脅水平的方案。
大額轉賬各類簇的威脅水平
分析轉賬數據,可知某些大額轉賬是從某交易所轉至相同交易所/不同交易所,這時雖然交易所的總體流入情況不變,但這里依然將其視作可操作資金,納入到威脅水平的判定中。可選用以下方案判定大額轉賬各類簇的威脅水平:
1、等級0
若無大額轉賬數據,或只有單個大額轉賬但其價值小于閾值V,則令其為等級0。
2、等級1:
若只有單個大額轉賬,且其價值大于閾值V,則令其為等級1;
若某類簇只有BTC轉賬,或只有USDT轉賬時,BTC轉入現貨交易所可能是為了砸盤,轉入期貨交易所則不易判斷其操作方向,而USDT轉入現貨交易所可能是為了拉盤,此時令該類簇為等級1。
3、等級2
當某類簇中BTC和USDT轉賬均存在時,令該類簇為等級2。
此時莊家/大戶可能在現貨和期貨上同時進行操作。例如在現貨上先拉盤獲取籌碼,等待散戶繼續拉升后,砸盤再買回籌碼,同時在期貨上進行相應建倉以獲利。
需要指出的是,獲取籌碼和砸盤之后再買回籌碼的過程也可通過OTC交易完成,這樣對行情不會產生影響,而這就不在我們的數據監控范圍之中了。
4、等級3
經過一段較平穩的行情后,若某類簇的最后一個數據的時間與北京時間相差在t1小時至t2小時之間(t1在這種情況下,莊家/大戶可能正在期貨上建倉,大量的掛單使得行情無法劇烈波動,經過t1小時后應該已經建倉完畢了,故威脅程度進一步增加。而若超出t2小時仍沒有發生瀑布行情,則表明此類簇的形成可能只是巧合,故取消本次威脅水平增加的級別。
5、多個類簇下威脅水平的評定
上文闡述了針對單個類簇如何評定其威脅水平。
在多個類簇同時存在時,可統計各類簇的資金量大小,若資金量相差較大,則可選用資金量最大的類簇的威脅水平來代表整體;若資金量相差不大,為了謹慎起見,可取各類簇中威脅水平最大的等級來代表整體。
如圖7所示,本輪收集的大額BTC和USDT轉賬被分為了5個類簇,其中某類簇的威脅水平已達到了等級3,故可用等級3來代表其整體的威脅水平。
五、結論與討論
本文分析了大額BTC和USDT轉賬對瀑布行情的影響。在此過程中使用近鄰傳播聚類算法對轉賬數據進行了分類,并提供了一個判定各類簇威脅水平的方案。當其整體威脅水平達到等級2時,部分量化程序應進入保守模式,當威脅水平達到等級3時,部分量化程序可暫停運行。在出現瀑布行情后,可認為之前的大額轉賬的效果已被體現,可將數據全部清除,獲取新的大額轉賬數據并進行分析,為下一次瀑布行情的到來做好準備。
盡管在處理多數聚類相關問題上,近鄰傳播聚類算法具有明顯的優勢,但其仍存在一些問題和局限性,例如:1、偏向參數的選擇問題;2、震蕩問題,當震蕩發生后算法不能自動消除震蕩并收斂;3、復雜的混合分布和非球狀數據簇聚類問題,處理這類數據簇聚類問題時算法還有待進一步完善,等等。目前,人們已針對其提出了較多的改進和擴展型算法,這里就不再贅述了。除此之外,對于大額轉賬數據還有許多細節值得去挖掘,這有待今后對其進行更加深入的討論。
參考文獻
唐丹.改進的近鄰傳播聚類算法及其應用研究.南京理工大學碩士學位論文,2016.1-12
李萍.AffinityPropagation聚類算法的改進及其應用研究.浙江大學碩士學位論文,2017.2-21
霍龍杰.AffinityPropagation聚類算法的研究及應用.東南大學碩士學位論文,2012.20-24
BrendanJ.Frey,DelbertDueck.ClusteringbyPassingMessagesBetweenDataPoints.Science,2007,315(5814):973
韓占朋,王玉惠,程聰.態勢估計方法研究綜述.航空兵器,2013,(1):14
王猛,章新華,夏志軍.基于屬性分析的威脅評估技術研究.系統工程與電子技術,2005,27(5):849
李永新.基于屬性識別理論的網絡威脅評估方法.計算機應用,2009,29(4):956
Tags:BTCUSDUSDTSDTBTCMTDUSD價格bitvenus交易所USDT腫么提現比特幣價格今日行情usdt
尊敬的GJ.COM用戶:本周四8月29日19:00-20:00,我們將在官方社群舉行本次AMA直播活動,我們非常榮幸的邀請到XCASH中國社區早期投資者布道者及社區代表等和大家一起進行深度交流.
1900/1/1 0:00:00尊敬的用戶: 經與項目方協商,RightBTC即將上線Vollar幣交易,并開放RightBTC自動充提幣業務.
1900/1/1 0:00:00加密騙局OneCoin背后的“加密女王”RujaIgnatova正在逃避客戶提起的訴訟,這些客戶聲稱受到了OneCoin的欺詐.
1900/1/1 0:00:00尊敬的ZT用戶: ZT創新板即將上線WUSDT,定于2019年8月28日8:50開放充值、WUSDT/USDT交易對,2019年8月29日15:00開啟提幣.
1900/1/1 0:00:008月26日,CBX研究院創始人和院長谷燕西發文表示,Bakkt的上線會直接影響Coinbase和Kraken的業務,但同時也不那么間接地影響其它地區的交易服務提供者.
1900/1/1 0:00:00金色財經比特幣8月24日訊為了確保去中心化金融行業不受詐騙影響,去中心化金融生態系統開發公司Maker試圖將術語“DEFI”注冊為商標,但就目前的狀況來看,他們可能無法如愿完成這個目標了.
1900/1/1 0:00:00