大資料風控平臺需求

大雄45發表於2021-12-10
導讀 大資料風控業務的開展依賴智慧風控平臺,智慧風控平臺的技術基礎是大資料技術,智慧風控系統技術架構也是以大資料系統技術架構為基礎演進而來的。

智慧風控系統技術架構主要分為訪問層、展現層、系統層、大資料平臺四部分,其中大資料平臺又分為接入層、清洗層、計算層、資料層四部分。本文主要介紹大資料風控平臺。

大資料風控平臺需求大資料風控平臺需求

大資料平臺是智慧風控系統技術架構的持久層,但又超越了傳統的持久層功能,是以持久層為基礎進行了技術應用的豐富。持久層又叫資料訪問層,是指把資料永久地儲存在儲存裝置中,它直接與資料庫互動。

大資料平臺的建立不僅服務於智慧風控體系,還服務於業務的其他場景,例如業務的營銷場景、運營場景等。考慮到智慧風控系統技術架構的資料還會服務其他業務場景,因此在初期搭建規劃的時候應該考慮資料層的通用性、易用性、非耦合性等;並且伴隨網際網路業務的快速增長以及大資料技術的廣泛運用,傳統持久層的設計也不再侷限於資料庫以及資料的互動,而是以持久層為基礎升級革新為大資料平臺,統籌管理、規劃資料的應用。

智慧風控系統技術架構的大資料平臺劃分為接入層、清洗層、計算層、資料層四部分,這裡只著重介紹接入層、清洗層、資料層的技術應用。

01接入層

接入層負責智慧風控平臺的內部接入,包括大資料平臺以及系統層的系統產品的資料接入,通常接入的資料有結構化資料和非結構化資料兩類,常用的技術應用有MQ、HTTP、HTTPS、FTP等,具體的技術介紹如下。

  1. MQ(Message Queue,訊息佇列)是基礎資料結構中“先進先出”的資料結構,一般用來解決應用解耦、非同步訊息、流量削峰等問題,是一種能夠實現高效能、高可用、可伸縮和最終一致性的架構。
  1. HTTP(Hyper Text Marked Language,超文字標記語言)是一種標識性語言,包括一系列標籤,通過這些標籤可以將網路上的文件格式統一,使分散的網路資源連線為一個邏輯整體。
  1. HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全為目標的HTTP通道,在HTTP的基礎上加入SSL層通過傳輸加密和身份認證保證了傳輸過程的安全性,被廣泛用於全球資訊網上安全敏感的通訊,例如交易支付等方面。
  1. FTP(File Transfer Protocol,檔案傳輸協議)是在網路上進行檔案傳輸的一套標準協議,用於將檔案傳輸到主機或與主機交換檔案。FTP可以使用使用者名稱和密碼進行身份驗證,匿名FTP允許使用者從網際網路訪問檔案、程式和其他資料,而無須使用者ID或密碼。
02清洗層

清洗層是資料清洗處理層,負責智慧風控平臺接入資料的清洗處理。清洗處理後的資料再被推送到計算層、系統層和資料層。通常大資料平臺清洗層使用的技術應用有Kafka、ETL,具體的技術介紹如下。

  1. Kafka是由Apache軟體基金會開發的一個開源流處理平臺,由Scala和Java編寫。Kafka是一種高吞吐量的分散式釋出訂閱訊息系統,可以處理消費者在網站中的所有動作流資料。但大部分研發人員都會把kafka當作一個分散式訊息佇列,利用它的高效能、持久化、多副本備份、橫向擴充套件等能力。生產者向佇列裡寫訊息,消費者從佇列裡取訊息進行業務邏輯運算。
  1. ETL(Extract-Transform-Load)是用來描述將資料從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。ETL是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料模型,將資料載入到資料倉儲中。雖然ETL一詞常用在資料倉儲,但其物件並不限於資料倉儲。
03資料層

資料層是資料的載體層,大資料技術的基礎是資料,因此大資料平臺的基礎是資料層。大資料平臺的資料層為智慧風控平臺提供系統產品使用的資料,而智慧風控平臺系統產品產生的資料會回傳到大資料平臺的資料層,兩個平臺的資料相互迴圈迭代,資料量不斷增加。資料層實際就是資料庫,資料庫根據資料儲存方式分為關係型資料庫、非關係型資料庫,同時隨著知識圖譜技術的發展和應用,圖資料庫也被用到智慧風控平臺中。

大資料平臺常用的資料庫有MySQL、MongoDB、HBase、Giraph、SSD等,具體的技術介紹如下。

  1. MySQL是一個關係型資料庫管理系統,由瑞典MySQL AB公司開發,屬於Oracle旗下產品。MySQL是最流行的關係型資料庫管理系統之一,在Web應用方面,MySQL是最好的關聯式資料庫管理系統應用軟體之一。
  1. MongoDB是一個基於分散式檔案儲存的資料庫,由C++語言編寫,旨在為Web應用提供可擴充套件的高效能資料儲存解決方案。
  1. HBase(Hadoop Database)是一個分散式的、面向列的開源資料庫,是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統,利用HBase技術可在廉價PC裝置上搭建起大規模結構化儲存叢集。
  1. Giraph是一個迭代的圖計算系統,是基於Hadoop建立的上層應用。
  1. SSD(Solid State Disk或Solid State Drive,固態驅動器),俗稱固態硬碟,用於資料庫等檔案的儲存。

智慧風控系統技術架構中使用者通過訪問層觸發訪問請求 ,由展現層承載訪問請求 並且傳輸請求命令到系統層,再由系統層根據請求命令獲取大資料平臺的資料,然後將資料傳輸到計算層進行分析計算,計算結果返回到系統層進行功能邏輯處理,最後輸出系統層的服務結果到展現層或者以介面的形式提供給外部系統。整個智慧風控平臺通過智慧風控系統技術高效、穩定運轉,資料在智慧風控平臺中迴圈流轉、迭代。

智慧風控的核心技術是大資料風控技術,智慧風控系統技術架構的設計應該以大資料平臺為基礎,充分融入大資料系統技術架構。

原文來自:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2793003/,如需轉載,請註明出處,否則將追究法律責任。

相關文章