剛入人工智慧行業小白所需要的開源資料以及語言

發光的房子君發表於2019-06-24


掌握一門新的技術其實並不難,要對所學習的東西有系統化的認識,學習起來要有規劃


第一要具備Java、Python、Linux相關的語言知識,這是當下非常熱門較為受到追捧的預言,如果你從來沒有寫過上面3種程式碼也沒有關係,只要你從事過開發工作,具有其他語言知識便能較快掌握上述3種語言的基礎。其中Python是AI最好的開發語言,常常用於智慧電話機器人開發以及CRM系統管理的建設。



第二要了解並能搭建企業業務場景下的大資料架構,比如最常用的Hadoop、Spark、Flume等基礎元件,要熟練的透過程式設計把一個個元件搭建成一個能靈活執行的架構叢集。



第三要熟悉並能熟練運用機器學習相關的演算法,根據要解決的業務問題選擇演算法,比如解決電話機器人好不好用或者是怎麼用時候,就需要透過資料與結果的反饋不斷對其進行調整最佳化,在面對資訊流時就要考慮到推薦和去重兩個業務場景,針對這兩個場景選擇相關演算法,並透過資料和結果對他們不斷最佳化,來的達到最優。



很多大資料、機器學習、人工智慧的初學者都需要大量的資料去進行練習,因為之前從未深度接觸過相關領域,很難找到合適的練習資料,給大家推薦幾個開源的資料集網站。




一、比較簡單的資料集網站


Data.gov,這個是美國政府的公開資料網站,包含了來自氣候、教育、能源、金融等領域的19萬多的資料集。


data.WorldBank.org,這個是世界銀行的開放資料網站,提供了世界發展指數、教育指數等幾大類資料集。  




二、大型資料集網站


Amazon WebServices(AWS)datasets,亞馬遜提供完整的安然電子郵件、Google Booksn-gram,NASA NEX,百萬歌曲等資料集,你可以在亞馬遜平臺使用也可以在本地計算機上使用。


Googledatasets 


谷歌為廣大開發者提供了一些資料集作為其Big Query工具的一部分,包括GiHub公共資料庫和Hacker News的所有故事和評論。




三、預測建模與機器學習資料集


UCI MachineLearning Repository


UCI機器學習庫是當下最受歡迎的資料庫,其包括了各種各樣的資料集。比如空氣質量、GPS軌跡等大型資料集。


Kaggle


Kaggle推出了一個資料收集平臺,人們可以自發貢獻資料,現在總共有350多個資料集,其中有超過200個是特徵資料集。




四、影像分類資料集


The MNISTDatabbse


當下國內外最熱門的影像識別資料庫,主要為手寫數字。包括6萬個示例和1萬個示例的測試集。


Chars74K


該資料集包括自然影像中的字元識別,包含74,000個影像。


 Frontal FaceImages


這個資料集主要是是由CMU & MIT收集的正面人臉影像。




五、文字分類資料集


Movie ReviewData 


這個資料集網站提供了一席勒電影評論檔案,其中標註了使用者的總體情緒極性(正面或負面)或主觀評價和對其主觀性地位(主觀或客觀)或極性的標籤


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925861/viewspace-2648523/,如需轉載,請註明出處,否則將追究法律責任。

相關文章