【大資料】你務必要搞清楚的十大資料探勘知識點

產業智慧官發表於2018-05-02

資料探勘是指有組織有目的地收集資料、分析資料,並從這些大量資料提取出需要的有用資訊,從而尋找出資料中存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。

資料探勘是一種從大量資料中尋找存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構的技術,是統計學、資料庫技術和人工智慧技術等技術的綜合。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

資料探勘的本質

資料探勘的本質就是尋找出資料中存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。

資料探勘的學科聯絡

資料探勘是一門涉及面很廣的交叉學科,包括數理統計、人工智慧、計算機等。涉及機器學習、數理統計、神經網路、資料庫、模式識別、粗糙集、模糊數學等相關技術。

資料探勘的價值、目的、作用

資料探勘的價值

資料探勘大部分的價值在於利用資料探勘技術改善預測模型,產生學術價值、促進生產、產生並促進商業利益,一切都是為了商業價值(資料——>資訊——>知識——>商業)。

資料探勘的目的

資料探勘的最終目的是要實現資料的價值,所以,單純的資料探勘是沒有多大意義的。

資料探勘的作用

從大量資料中尋找存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。

資料探勘技術產生的背景

1. 資料正在以空前的速度增長,現在的資料是海量的大資料。現在,不缺乏資料,但是卻面臨一個尷尬的境地——資料極其豐富,資訊知識匱乏。

2. 海量的大資料已經遠遠超出了人類的理解能力,如果不借助強大的工具和技術,很難弄清楚大資料中所蘊含的資訊和知識。重要決策如果只是基於決策制定者的個人經驗,而不是基於資訊、知識豐富的資料,那麼,這就極大地浪費了資料,也極大地給我們的商業、學習、工作、生產帶來不便和巨大的阻礙。所以,能夠方便、高效、快速地從大資料裡提取出巨大的資訊和知識是必須面對的,因此,資料探勘技術應運而生。資料探勘填補了資料和資訊、知識之間的鴻溝。

3. 資料探勘技術有助於實現從 DT(資料時代)向 KT(知識時代)轉變。

資料探勘與資料分析的區別

資料分析的兩種說法

即廣義的資料分析和狹義的資料分析。廣義的資料分析包括狹義的資料分析和資料探勘,而我們常說的資料分析就是指狹義的資料分析。

資料分析(狹義)

(1) 資料分析(狹義)的定義:簡單來說,狹義的資料分析就是對資料進行分析。專業的說法,狹義的資料分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的資料進行處理與分析,提取有價值的資訊,發揮資料的作用。

(2) 作用:它主要實現三大作用:現狀分析、原因分析、預測分析(定量)。狹義的資料分析的目標明確,先做假設,然後通過資料分析來驗證假設是否正確,從而得到相應的結論。

(3)方法:主要採用對比分析、分組分析、交叉分析、迴歸分析等分析方法;

(4)結果:狹義的資料分析一般都是得到一個指標統計量結果。比如,總和、平均值等,這些指標資料都需要與業務結合進行解讀,才能發揮出資料的價值與作用。

資料探勘

(1)定義:資料探勘是指從大量的資料中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、且有價值的資訊和知識的過程。

(2)作用:資料探勘主要側重解決四類問題,即分類、聚類、關聯和預測(定量、定性)。資料探勘的重點在尋找未知的模式與規律。比如,我們常說的資料探勘案例:啤酒與尿布、安全套與巧克力等,這就是事先未知的,但又是非常有價值的資訊。

(3)方法:主要採用決策樹、神經網路、關聯規則、聚類分析等統計學、人工智慧、機器學習等方法進行挖掘。

(4)結果:輸出模型或規則,並且可相應得到模型得分或標籤,模型得分如流失概率值、總和得分、相似度、預測值等,標籤如高中低價值使用者、流失與非流失、信用優良中差等。

總結

資料分析(狹義)與資料探勘的本質都是一樣的,都是從資料裡面發現關於業務的知識(有價值的資訊),從而幫助業務運營、改進產品以及幫助企業做更好的決策。所以資料分析(狹義)與資料探勘構成廣義的資料分析。

資料探勘軟體及其發展

1. 第一代,代表軟體:Salford Systems 公司早期的 CART 系統。

2. 第二代,代表軟體:SAS Enterprise Miner;DBMiner,DBMiner 是加拿大 SimonFraser 大學開發的一個多工資料探勘系統,它的前身是 DBLearn。

3. 第三代,代表軟體:SPSS Clementine,SPSS Clementine 是 SPSS 公司的一個資料探勘平臺;RapidMiner,RapidMiner 是世界領先的資料探勘解決方案。

4. 第四代,正在開發。

資料探勘技術及其分類

資料探勘技術(方法)分為兩大類

(1)預言(Predication):用歷史預測未來。

(2)描述(Description):瞭解資料中潛在的規律。

有哪些資料探勘技術(方法)

資料探勘常用的方法有:分類、聚類、迴歸分析、關聯規則、神經網路、特徵分析、偏差分析等。這些方法從不同的角度對資料進行挖掘。

(1)分類

分類的含義:就是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類。分類是依靠給定的類別對物件進行劃分的。

分類的目的(作用):其目的是通過分類模型,將資料庫中的資料項對映到某個給定的類別中。

分類的應用:客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測、應用分類、趨勢預測等。

主要的分類方法:決策樹、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神經網路等。

分類演算法的侷限:分類作為一種監督學習方法,要求必須事先明確知道各個類別的資訊,並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理海量資料的時候,如果通過預處理使得資料滿足分類演算法的要求,則代價非常大,這時候可以考慮使用聚類演算法。

(2)聚類

聚類的含義:聚類指事先並不知道任何樣本的類別標號,按照物件的相似性和差異性,把一組物件劃分成若干類,並且每個類裡面物件之間的相似度較高,不同類裡面物件之間相似度較低或差異明顯。我們並不關心某一類是什麼,我們需要實現的目標只是把相似的東西聚到一起,聚類是一種無監督學習。

聚類與分類的區別:聚類類似於分類,但是,與分類不同的是,聚類不依靠給定的類別對物件進行劃分,而是根據資料的相似性和差異性將一組資料分為幾個類別。

聚類的目的:聚類與分類的目的不同。聚類是要按照物件的相似性和差異性將物件進行分類,屬於同一類別的資料間的相似性很大,但不同類別之間資料的相似性很小,跨類的資料關聯性很低。組內的相似性越大,組間差別越大,聚類就越好。

聚類的方法(演算法):主要的聚類演算法可以劃分為如下幾類,劃分方法、層次方法、基於密度的方法、基於網格的方法、基於模型的方法。每一類中都存在著得到廣泛應用的演算法, 劃分方法中有 k-means 聚類演算法、層次方法中有凝聚型層次聚類演算法、基於模型方法中有神經網路聚類演算法。

聚類的應用:它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。

(3)迴歸分析

迴歸分析的含義:迴歸分析是一個統計預測模型,用以描述和評估因變數與一個或多個自變數之間的關係;反映的是事務資料庫中屬性值在時間上的特徵,產生一個將資料項對映到一個實值預測變數的函式,發現變數或屬性間的依賴關係。

迴歸分析的目的(作用):迴歸分析反映了資料庫中資料的屬性值在時間上的特徵,通過函式表達資料對映的關係來發現屬性值之間的依賴關係。

迴歸分析的應用:迴歸分析方法被廣泛地用於解釋市場佔有率、銷售額、品牌偏好及市場營銷效果。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢預測及有針對性的促銷活動等。

迴歸分析的主要研究問題:資料序列的趨勢特徵、資料序列的預測、資料間的相關關係等。

(4)關聯規則

關聯規則的含義:關聯規則是隱藏在資料項之間的關聯或相互關係,即可以根據一個資料項的出現推匯出其他資料項的出現。關聯規則是描述資料庫中資料項之間所存在的關係的規則。

關聯規則的目的(作用):發現隱藏在資料間的關聯或相互關係,從一件事情的發生,來推測另外一件事情的發生,從而更好地瞭解和掌握事物的發展規律等等。

關聯規則的挖掘過程主要包括兩個階段:第一階段為從海量原始資料中找出所有的高頻專案組;第二階段為從這些高頻專案組產生關聯規則。

關聯規則的應用:關聯規則挖掘技術已經被廣泛應用於金融行業企業中用以預測客戶的需求,各銀行在自己的 ATM 機上通過捆綁客戶可能感興趣的資訊供使用者瞭解並獲取相應資訊來改善自身的營銷。

(5)神經網路方法

神經網路作為一種先進的人工智慧技術,因其自身自行處理、分佈儲存和高度容錯等特性非常適合處理非線性的問題,以及那些以模糊、不完整、不嚴密的知識或資料為特徵的問題,它的這一特點十分適合解決資料探勘的問題。

典型的神經網路模型主要分為三大類:第一類是以用於分類預測和模式識別的前饋式神經網路模型,其主要代表為函式型網路、感知機。第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以Hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織對映方法,以ART模型為代表。雖然神經網路有多種模型及演算法,但在特定領域的資料探勘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。

(6)Web資料探勘

Web資料探勘的含義:web資料探勘是一項綜合性技術,指Web從文件結構和使用的集合C中發現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那麼Web 挖掘過程就可以看做是從輸入到輸出的一個對映過程。

Web資料探勘的研究物件:是以半結構化和無結構文件為中心的Web,這些資料沒有統一的模式,資料的內容和表示互相交織,資料內容基本上沒有語義資訊進行描述,僅僅依靠HTML語法對資料進行結構上的描述。當前越來越多的Web 資料都是以資料流的形式出現的,因此對Web 資料流挖掘就具有很重要的意義。

目前常用的Web資料探勘演算法:PageRank演算法、HITS演算法、LOGSOM 演算法。這三種演算法提到的使用者都是籠統的使用者,並沒有區分使用者的個體。

Web資料探勘的應用:可以利用Web的海量資料進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求資訊、客戶等有關的資訊,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境資訊和內部經營資訊,並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些資訊進行分析和處理,以便識別、分析、評價和管理危機。

目前Web 資料探勘面臨著一些問題:使用者的分類問題、網站內容時效性問題,使用者在頁面停留時間問題,頁面的鏈入與鏈出數問題等。

(7)特徵分析

特徵分析的含義:特徵分析是從資料庫中的一組資料中提取出關於這些資料的特徵式,這些特徵式表達了該資料集的總體特徵。

特徵分析的目的(作用):在於從海量資料中提取出有用資訊,從而提高資料的使用效率。

特徵分析的應用:如營銷人員通過對客戶流失因素的特徵提取,可以得到導致客戶流失的一系列原因和主要特徵,利用這些特徵可以有效地預防客戶的流失。

(8)偏差分析

偏差分析的含義:偏差是資料集中的小比例物件。通常,偏差物件被稱為離群點、例外、野點等。偏差分析就是發現與大部分其他物件不同的物件。

偏差分析的應用:在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常資訊的發現、分析、識別、評價和預警等方面。而其成因源於不同的類、自然變異、資料測量或收集誤差等。

什麼叫“異常”

(1)Hawkins給出了異常的本質性的定義:異常是資料集中與眾不同的資料,使人懷疑這些資料並非隨機偏差,而是產生於完全不同的機制。

(2)聚類演算法對異常的定義:異常是聚類嵌於其中的背景噪聲。

(3)異常檢測演算法對異常的定義:異常是既不屬於聚類也不屬於背景噪聲的點。他們的行為與正常的行為有很大不同。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png


人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET


本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com





相關文章