【資料科學家】跨入商業分析、資料科學、挖掘領域必須哪些基本數學知識

產業智慧官發表於2018-02-24

一名普通的IT工程師要跨入商業分析、資料科學或者資料探勘領域,他必須學習或複習哪些基本的數學知識。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


基礎代數,函式,集合理論,繪圖,幾何學


讓我們從最基礎的內容開始。現代數學的大廈是建立在一些基本內容如集合論、泛函分析以及數論等內容上的。從應用數學學習的角度看,我們可以通過一些簡明的模組來簡化這些基本內容的學習(沒有特別的順序):

640?wx_fmt=png&wxfrom=5&wx_lazy=1

a) 集合論基礎,b) 實數和複數及其基本屬性,c) 多項式函式、指數、對數、三角恆等式,d) 線性和二次方程,e) 不平等、無窮級數、二項式定理,f) 排列組合,g) 繪圖、笛卡兒座標系和極座標系、圓錐曲線論,h) 基礎幾何定理、三角形的性質。


微積分


當年牛頓想要解釋天體執行的規律,但他卻沒有一個足夠好的數學工具來描述他提出的物理概念。在英格蘭的城市爆發瘟疫的期間,他搬到了他在鄉下的農場,在這裡,他提出了現代數學的一個分支--微積分。從那以後,微積分被認為是任何分析研究學科如理論科學、應用科學、工程學、社會科學和經濟學等通往高等教育的大門。


毫不意外的,微積分的概念和應用出現在資料科學和機器學習中。涉及的重要概念包括:


a) 單變數函式的極限、連續性以及可微性,b) 中值定理、不定型以及L’Hospita規則,c) 最大值和最小值,d) 乘積和鏈式法則,e) 泰勒級數,f) 積分計算的基本和平均價值定理,g) 定積分和廣義積分的計算,h) Beta和Gamma函式, i) 雙變數函式的極限、連續性和偏微分,j) 常微分和偏微分方程基礎。


640?wx_fmt=png


線性代數


一個長期沒有聯絡的獵頭突然在領英上加你好友?淘寶突然向你推薦一種超好吃的餅乾?網易雲音樂為你推薦了最符合你口味的小眾歌曲?


640?wx_fmt=png


學習了線性代數基礎後,你就有了學習科技行業的核心內容所需的數學知識儲備,這種感覺是不是很愉快?


所需學習的必要內容如下(排序不分先後且可能有遺漏):


a) 矩陣和向量的基本性質--標量乘法、線性變換、轉置、共軛、秩以及行列式,b) 內積和外積,c) 矩陣乘法規則以及各種演算法,d) 矩陣的逆,e) 特殊矩陣--方陣,單位矩陣,三角矩陣,稀疏矩陣和稠密矩陣的概念,單位向量,對稱矩陣,Hermitian矩陣,反Hermitian矩陣和酉矩陣,f) 矩陣分解的概念/矩陣LU分解,Gaussian/Gauss-Jordan消元法求解Ax = b的線性方程組,g) 向量空間,基,極化,正交性,標準正交,線性最小二乘,h) 奇異值分解,i) 特徵值,特徵向量,對角化。

還有一篇很好的文章推薦--《線性代數可以讓你實現什麼?》(連結:https://medium.com/@jeremyjkun/here-s-just-a-fraction-of-what-you-can-do-with-linear-algebra-633383d4153f)


統計和概率


“只有死亡和稅收是永遠不變的,其他一切都遵從正態分佈。”

640?wx_fmt=png

在關於資料科學的討論中,無論怎麼強調要紮實掌握統計學和概率學基本概念的重要性都不為過。實際上,許多該行業的從業都者認為機器學習就是統計學習。我從著名的《統計學習基礎(An Introduction to Statistical Learning)》開始了我第一個機器學習MOOC課程,幾乎瞬間我就意識到我在這門學科上存在不少概念空白。為了彌補這些空白,我開始學習其他有關基本統計學和概率學的MOOC課程,並研讀相關主題的文章或觀看視訊。這門學科範圍很廣,因此針對性的學習計劃是掌握大部分基本概念的關鍵。我儘量把它們一一列取出來,但是我也有些擔心,畢竟這不是我擅長的領域。


1. 資料摘要和描述性統計,集中趨勢,方差,協方差,相關性;2. 概率:基本概念,期望,概率微積分,貝葉斯定理,條件概率;3. 概率分佈函式——均勻分佈,正態分佈,二項分佈,卡方分佈,t分佈,中心極限定理;4. 取樣,度量,誤差,隨機數; 5. 假設檢驗,A/B測試,置信區間,p值;6. 方差分析;7. 線性迴歸;8. 冪,效應量,檢測手段;8. 研究性學習和試驗計劃。


最優化理論,演算法分析。


這些話題跟應用數學領域的傳統話語沒什麼不同,它們大多是相關的並廣泛應用到多個專業領域研究——理論電腦科學,控制理論或運籌學。然而在機器學習實踐中,對這些強大技術有基本掌握是非常有用的,值得在這裡一提。

640?wx_fmt=png

比如,幾乎所有的機器學習演算法/技術目的都是在特定約束條件下,使得某種估計誤差最小化。這是一個最優化問題,通常用線性規劃或類似的技術解決。另一方面,這些技術在幫助理解計算機演算法的時間複雜度上效果顯著,因為當演算法應用到大型資料集時,時間複雜度就非常重要了。在這個大資料時代,通常人們期望一名資料科學家可以提取、轉換和分析數十億條記錄,他或她必須非常謹慎的選擇合適的演算法,因為不同演算法會導致最終效能的天壤之別。一般的理論和演算法性質可以在電腦科學課上學習,但是要理解時間複雜度是如何分析和計算的(比如針對給定大小的資料集,該演算法需要執行多長時間?),就必須要熟悉基本的數學概念比如動態規劃或者遞迴方程。熟悉數學歸納法的證明技術也非常有用。


後記


看到有這麼多數學知識要學,是不是有點望而卻步了?覺得自己要重新上一遍大學了?不用擔心,你可以根據需要邊做邊學,但最重要的是保持思想的開放。不慌不慌,這些主題你也許大多已經在大學學過,也可能是第一次接觸,不過當你學完後,你一定可以慢慢聽到資料中隱藏的“旋律”。到那時,你就已經朝著成為資料科學家的方向邁出了一大步。


原文連結:

https://www.kdnuggets.com/2017/12/mathematics-needed-learn-data-science-machine-learning.html

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET


本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com




相關文章