以太坊交易所 以太坊交易所
Ctrl+D 以太坊交易所
ads

知識圖譜在風控的應用_ETL:ABEL價格

Author:

Time:1900/1/1 0:00:00

本文將主要討論知識圖譜在風控領域的圖譜構建過程。enjoy~

一.知識圖譜和金融領域簡述

什么是知識圖譜?

借鑒其中一個理解:

知識圖譜主要的目標是用來描述真實世界中間存在的各種實體和概念,以及它們之間的關聯關系。

具體理論知識就不在此贅述,對于這個抽象的概念會有一篇文章來列舉一個代表性的例子。

知識圖譜起源于語義網絡,最初由Google提出用與優化搜索結果,發展至今已經應用于各個垂直化領域。從商業概念上,知識圖譜可分為“通用知識圖譜”和“行業知識圖譜”。通用知識圖譜顧名思義是面向全領域的,強調的是“廣度”,比較著名的知識庫有Freebase,Wikidata,Yago,DBPedia等。

行業知識圖譜是面向特定的垂直領域,對于數據有更嚴格的前置數據模式和更準確的準確度要求,強調的是“深度”。兩者之間的主要區別在于前者是“自底向上”構建的知識庫,后者是“自頂向下”構建的知識庫。

金融領域數據是典型的具有”4V”特征的大數據。進一步,金融領域是最能把數據變現的行業。金融業類別業非常廣,大類主要包括:銀行類、投資類、保險類等。再小粒度可分為:貨幣、債券、基金、信托等資管計劃、要素市場、征信貸款等。知識圖譜在金融領域的應用主要包括:風控、征信、審計、反欺詐、數據分析、自動化報告等,本文主要討論知識圖譜在小微風控的應用。

a16z crypto引入Lasso和Jolt工具來增強零知識證明:金色財經報道,風險投資公司 Andreessen Horowitz 的加密貨幣部門 a16z crypto 推出了 Lasso 和 Jolt,這是一對基于簡潔非交互式知識論證(SNARK)的新工具。SNARK 是一種零知識證明,有可能促進第 2 層空間中的可擴展 ZK Rollup,這通常被視為計算密集型。Lasso 是 a16z 兩篇研究論文的主要創新,它采用了“查找參數”機制,有利于更快的零知識證明。它將特定的輸入與相應的輸出相匹配,而不泄露額外的信息。該團隊指出,Lasso 引入了一種簡化的方法來驗證 SNARK,通過對大量結構化表執行查找來避免繁瑣的手動優化電路。[2023/8/11 16:18:58]

風控是指如何當項目或企業在一定的風險的環境里,把風險減至最低的管理過程。它的基本程序包括風險識別、風險估測、風險評價、風險控制和風險管理效果評價等環節。

風險控制的最大兩個分類為企業風險監控和個人貸款審核。企業數據包括:企業基礎數據、投資關系、任職關系、企業專利數據、企業招投標數據、企業招聘數據、企業訴訟數據、企業失信數據、企業新聞數據。個人貸款的數據包括:個人的基本信息、行為信息、信用信息、社交信息、消費信息等。

歐盟知識產權局:區塊鏈防偽工具有望在品牌、邊境管制等領域發揮作用:6月17日消息,歐盟知識產權局(EUIPO)在周一的一篇文章中表示,在涉及品牌、邊境管制和物流運營商的試驗之后,基于區塊鏈的防偽工具將能夠發揮作用。經過長達數月的試驗,EUIPO與四個品牌、兩家物流運營商和一家海關當局進行了實際運營測試,最終完成了一項概念驗證,該機構表示,基于另一個名為歐洲區塊鏈服務基礎設施(EBSI)的項目(現在被稱為ELSA)的計劃顯示出有希望的結果。

EUIPO希望今年開發一個開源平臺,以確保貿易供應鏈中的每個環節都能追蹤產品并檢查它們的真實性。使用分布式賬本技術打擊假貨并不是一個新想法,但在實踐中并未取得成功。[2023/6/17 21:43:45]

本文將主要討論知識圖譜在風控領域的圖譜構建過程。

二.風控的知識圖譜構建

知識圖譜的邏輯結構分為兩個層次:數據層和模式層。

在知識圖譜的數據層,數據如果以『實體-關系-實體』或者『實體-屬性-值』作為基本表達方式,我們把這種表達方式稱為“三元組”,則存儲在圖數據庫中的所有數據將構成龐大的實體關系網絡,形成知識的圖譜。

模式層在數據層之上,是知識圖譜的核心,在模式層存儲的是經過提煉的知識,通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規則和約束條件的支持能力來規范實體、關系以及實體的類型和屬性等對象之間的聯系。本體庫在知識圖譜中的地位相當于知識庫的模具,擁有本體庫的知識庫冗余知識較少。

Zcash開發商稱零知識證明系統Halo已獲MIT開源許可:4月7日消息,Zcash開發商Electric Coin Company(ECC)表示,零知識證明系統Halo現已獲得MIT開源許可。Zcash此前表示,Halo 2證明系統將于今年4 月份在Zcash中實施,引入聚合證明等來增強網絡可擴展性。

Halo 2 最初是在Bootstrap開源許可證(BOSL)下發布的,MIT開源許可限制會更加寬松。2021年9月,Filecoin基金會和ECC、Protocol Labs和以太坊基金會公布了一項專注于Halo 2的多方面合作。[2022/4/7 14:10:45]

這里涉及知識圖譜的另外一個重要概念是“本體(Ontology)”。本體的概念最早起源于哲學領域,指的是對客觀存在系統的解釋和說明。在眾多概念中,維基上的定義更加通俗些:本體實際上就是對特定領域之中某套概念及其相互之間關系的形式化表達。具體到金融風控領域,本體目的就是對風控領域的知識術語進行分類,同時規定各個分類之間的關系和它們自身的屬性。

本體可以采用人工編輯的方式手動構建,也可以以數據驅動的自動化方式構建本體。自動化構建包含3個階段:實體并列關系相似度計算、實體上下位關系抽取、本體的生成。在領域本體構建的實際工程中,領域本體所涉及的實體類型非常有限,與其花很高的成本去做自動化,不如人工構建本體。所以本章節也主要討論風控領域的手動本體構建過程。

知識星球:近期將對虛擬貨幣交易代投私募進行專項整治:今日,知識星球發布公告稱,為凈化社區環境,依據《網絡安全法》及《知識星球用戶協議》,知識星球近期將對違法有害信息進行專項整治,如虛擬貨幣交易代投私募進行專項整治等,違規者將禁言、永久封號或永久封群,請用戶自覺遵守法律和社區規范。用戶如果發現違法違規行為,可向知識星球舉報反饋。[2018/3/5]

本體和知識圖譜的構建方法有很多,這里分享一個在實際工作中初略的知識圖譜構建流程:

本體庫構建;知識圖譜構建;知識圖譜應用。

提到知識圖譜通常認為重點在于算法和開發,實際知識圖譜的構建和傳統關系型數據庫的構建情況一樣,重點在于具體業務流程的理解和本體的設計,知識圖譜的構建過程的工作占比如下:

三.風控的本體構建

如前所述,構建風控領域知識圖譜的首要工作是構建本體模型,即定義行業的通用概念為實體,以及實體之間的關系。

信貸最核心的主體就是貸款申請者,貸款申請者可能是個人也可能是公司,通過申請者的基本信息、行為信息、經營狀況、社會關系等評估貸款的風險。因此可以列舉信貸相關的核心實體為:人、企業、銀行賬戶、銀行、抵押物、申請事件、訴訟事件等,以及基本信息實體:電話、郵件、地址等。實體與實體之間的關系為親屬、任職、所有權、事件參與方等。如圖所示為一個簡化版的信貸風控本體模型。

俄羅斯美食家阿基莫夫推出基于自身的Token:提供專業知識和建議: 俄羅斯著名美食家,同時也是Biocoin的聯合創始人鮑里斯阿基莫夫近日決定推出基于自身技能的加密貨幣Akimov coin。他表示,該Token的持有者能夠獲得他在農業綜合領域建議及電子商務專家的折扣服務,如果他的時間需求增加,那么他的硬幣價值也會增加,阿基莫夫認為這就像買了一個受歡迎的顧問的時間。[2018/2/23]

為什么要將人和公司的電話地址設計為單獨的實體節點,是基于風控的業務關注點,當兩個貸款申請者有相同的電話或者地址時候,可能就是一個需要關注的風險點。把這兩個信息作為單獨的節點,基于圖譜理論,當統計“電話”類型節點的邊數量超過一個就能很方便找出高風險申請者。

本體構建完成后,需要對比實際業務對本體進行驗證,確保本體能夠正確描述當前業務,并且包含了所有的業務流程。

四.風控的圖譜構建

知識圖譜的構建是圖譜應用的前提,構建的主要工作是把數據從不同的數據源中按照本體模型所規定的規則抽取出來。對于垂直領域的知識圖譜來說,數據的主要來源是是業務本身的數據,其通常是機構自己的私有數據以結構化的形式存儲。通過ETL處理,將數據抽取轉換為圖譜數據。圖譜數據的存儲形式目前有兩種:基于RDF等存儲和圖數據庫存儲。兩者的比較如下所示:

RDF圖數據庫存儲三元組節點和關系擁有屬性符合W3C標準圖的遍歷和擴展方便有標準的推理引擎擁有事務管理數據可移植性高工程化程度高多用于學術場景可視化效果好。

在實際工程應用中主要采用圖庫的方式對知識圖譜進行存儲,當前比較流行的圖數據庫為Neo4j,本篇不再詳細介紹圖數據庫和Neo4j,重點在于如何根據本體將數據映射成為Neo4j要求的數據格式。Neo4j提供了多種加載數據的方式,對于小規模數據,可以采用加載CSV的方式進行,CSV的格式要求如Neo4j官網的操作手冊所示。

假設數據源是關系型數據庫,其中中有三張表及其字段如下所示,company表中字段“legal_person”和“manager”是外鍵關聯到person表:

我們要從源數據中抽取出多個實體和多條關系,這里部分舉例如下:

實體:

personcompanyaccountbankphoneNoaddress

關系:

person–lsLegalPersonOf->companyperson–lsManagerOf->companyperson–isOwnerOf->accountaccount–belongsTo->bankperson–hasPhoneNo->phoneNocompany–hasAddress->address

根據Neo4j的要求將源數據進行ETL處理,映射成為Neo4j要求的CSV格式文件,簡單列舉如下:

person節點:

personId:ID,personName,:LABEL001,“personA”,person002,“personB”,person

法人關系:

:START_ID,:END_ID,:LABEL001,101,isLegalPersonOf002,102,isLegalPersonOf

五.圖譜的應用

當前,小微貸款和個人小額貸款還處于“蠻荒時代”,甚至出現了各種中介機構通過各種偽造的虛假信息幫助客戶申請貸款。所以對于放貸方而言,借貸風險控制面臨非常巨大的挑戰。

1.貸款申請方畫像

可以在圖譜中直接搜索某個具體的人名字或者公司名字,獲取該人或者公司的基礎信息畫像,如電話,地址,關聯方的信息。如圖所示:

2.關聯方探查

通過圖譜可以調查某個人或者某家申請貸款公司的關聯方信息。在貸款審核期間,申請貸款主體的關聯方信息中有借貸糾紛的訴訟事件,擔保方過多等可關注的風險點。在貸款發放后,有時出現貸款方失聯的情況,無法通過申請貸款時提交的信息聯系到借款方,可以通探尋更“深遠”的關聯方找到失聯的貸款方。

3.反欺詐調查

在實際場景中,有不少人利用各種渠道而來身份證進行貸款申請。還有公司通過循環轉賬等方式提供虛假的經營流水信息。通過知識圖譜可以識別以上風險點。如多個貸款申請人提供的身份證號嗎不同,但是卻有相同的聯系電話號嗎或者聯系地址。銀行作為借貸機構,可以調查申請人賬戶資金往來情況,識別是否存在循環轉賬等異常資金往來信息識別風險點。

在圖譜中,通過條件搜索指定的節點可以篩選調查風險節點,如:“電話號碼”節點的關聯方大于1的節點。

4.風險指標報告

在風控處理中,貸款風險比率是衡量商業銀行風險最重要的指標之一,主要包括不良貸款比率、貸款加權風險度、貸款分散化比率、不良貸款撥備覆蓋率等。將知識圖譜中貸款人節點和相關指標相結合,設定報警閾值,通過機器學習等技術,找到隱蔽的風險結構,指標特征,能夠快速找出相關責任方和其關聯方,形成報告供業務人員進行調。

總結

本文主要介紹了知識圖譜在風控中的應用和風控領域知識圖譜的構建方法。知識圖譜的構建前提是清晰的業務場景和良好的數據治理。很多著名的知識圖譜構建案例中,大部分時間都是用在數據治理和數據映射上。借用一句別處看來的話:

A“graph”—thatunderstandsreal-worldentitiesandtheirrelationshipstooneanother:things,notstrings。

本文由@Eric_Xie原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Pixabay,基于CC0協議

Tags:BELETLABELBEL價格BEL幣ETL幣ETL價格ABEL幣ABEL價格

幣安交易所app下載
為什么古天樂用門羅幣能“洗黑錢”,而用比特幣的卻被抓了?_區塊鏈:區塊鏈十大數字貨幣交易所排名

不久前,聽聞新上的《反貪風暴3》中出現了數字貨幣的橋段,就是這個:我心想,難道數字貨幣要借電影的外殼進入尋常百姓家了?在幣市遇熊,韭菜離場的現在,這條“廣告”打得讓人有點小激動.

1900/1/1 0:00:00
“密碼貨幣、通證與無幣區塊鏈”學術研討會成功舉行_區塊鏈:聯盟鏈幣是什么幣

2018年8月22日,由知密大學與巴比特聯合比特大陸、幣看、NULS、隕石財經在重慶工商大學學豪酒店主辦的“密碼貨幣、通證與無幣區塊鏈”學術研討會成功舉行.

1900/1/1 0:00:00
數據驅動的加密貨幣投機方法_比特幣:btc

比特幣市場的行為如何?加密貨幣價值突然出現高峰和低谷的原因是什么?不同altcoins的市場是不可分割的或基本獨立的?我們如何預測接下來會發生什么?有關加密貨幣的文章,比如比特幣和以太坊.

1900/1/1 0:00:00
超行情17倍收購三字母!讓幣圈大佬梭哈POA的究竟什么來頭?_以太坊:區塊鏈

現如今像55.com、60.com、XW.com、FN.com、ZG.com、ZB.com這種的極品大米,幾乎都被區塊鏈項目,或者數字貨幣相關的平臺啟用,但這類域名的資源畢竟少數.

1900/1/1 0:00:00
一個二隊小孩6100W歐?皇馬是買彩票還是買比特幣?_:

在皇馬國王杯對陣梅利亞的比賽中,皇馬新星維尼修斯在第一次首發并制造兩球,為皇馬取得久違的大勝。賽后,《馬卡報》發起皇馬鋒線首發的投票,或許是皇馬球迷出于對皇馬黑色十月的失望,維尼修斯獲得了87%.

1900/1/1 0:00:00
360發現區塊鏈史詩級漏洞 可直接控制所有節點_EOS:數字貨幣

近日,360公司Vulcan團隊發現了區塊鏈平臺EOS的一系列高危安全漏洞。經驗證,其中部分漏洞可以在EOS節點上遠程執行任意代碼,即可以通過遠程攻擊,直接控制和接管EOS上運行的所有節點.

1900/1/1 0:00:00
ads