剛入人工智慧行業小白所需要的開源資料以及語言
掌握一門新的技術其實並不難,要對所學習的東西有系統化的認識,學習起來要有規劃
第一要具備Java、Python、Linux相關的語言知識,這是當下非常熱門較為受到追捧的預言,如果你從來沒有寫過上面3種程式碼也沒有關係,只要你從事過開發工作,具有其他語言知識便能較快掌握上述3種語言的基礎。其中Python是AI最好的開發語言,常常用於智慧電話機器人開發以及CRM系統管理的建設。
第二要了解並能搭建企業業務場景下的大資料架構,比如最常用的Hadoop、Spark、Flume等基礎元件,要熟練的透過程式設計把一個個元件搭建成一個能靈活執行的架構叢集。
第三要熟悉並能熟練運用機器學習相關的演算法,根據要解決的業務問題選擇演算法,比如解決電話機器人好不好用或者是怎麼用時候,就需要透過資料與結果的反饋不斷對其進行調整最佳化,在面對資訊流時就要考慮到推薦和去重兩個業務場景,針對這兩個場景選擇相關演算法,並透過資料和結果對他們不斷最佳化,來的達到最優。
很多大資料、機器學習、人工智慧的初學者都需要大量的資料去進行練習,因為之前從未深度接觸過相關領域,很難找到合適的練習資料,給大家推薦幾個開源的資料集網站。
一、比較簡單的資料集網站
Data.gov,這個是美國政府的公開資料網站,包含了來自氣候、教育、能源、金融等領域的19萬多的資料集。
data.WorldBank.org,這個是世界銀行的開放資料網站,提供了世界發展指數、教育指數等幾大類資料集。
二、大型資料集網站
Amazon WebServices(AWS)datasets,亞馬遜提供完整的安然電子郵件、Google Booksn-gram,NASA NEX,百萬歌曲等資料集,你可以在亞馬遜平臺使用也可以在本地計算機上使用。
Googledatasets
谷歌為廣大開發者提供了一些資料集作為其Big Query工具的一部分,包括GiHub公共資料庫和Hacker News的所有故事和評論。
三、預測建模與機器學習資料集
UCI MachineLearning Repository
UCI機器學習庫是當下最受歡迎的資料庫,其包括了各種各樣的資料集。比如空氣質量、GPS軌跡等大型資料集。
Kaggle
Kaggle推出了一個資料收集平臺,人們可以自發貢獻資料,現在總共有350多個資料集,其中有超過200個是特徵資料集。
四、影像分類資料集
The MNISTDatabbse
當下國內外最熱門的影像識別資料庫,主要為手寫數字。包括6萬個示例和1萬個示例的測試集。
Chars74K
該資料集包括自然影像中的字元識別,包含74,000個影像。
Frontal FaceImages
這個資料集主要是是由CMU & MIT收集的正面人臉影像。
五、文字分類資料集
Movie ReviewData
這個資料集網站提供了一席勒電影評論檔案,其中標註了使用者的總體情緒極性(正面或負面)或主觀評價和對其主觀性地位(主觀或客觀)或極性的標籤
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925861/viewspace-2648523/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 剛入門學習GO語言需要注意什麼?有哪些框架?Go框架
- Rust語言開發資源Rust
- FAIR & NYU開發XNLI語料庫:15種語言(含低資源語言)AI
- Go語言專案實戰:基於開源資料的成語查詢Go
- 資料庫行業以及產品資料庫行業
- Flutter小白教程系列(三) --- Dart語言快速入門FlutterDart
- 豆瓣的開發語言:無所不能的pythonPython
- R語言入門與資料分析R語言
- python 是開源語言嗎:Python 是一種開源語言嗎?Python
- 【人工智慧演算法小白入門系列】- 自然語言處理工程化全景圖解析人工智慧演算法自然語言處理圖解
- python語言心得(小白)Python
- 非常適合小白入門的Go語言學習路線Go
- 資料資產入表“倒數計時” 企業和資料交易所積極行動
- 小白學開源
- 大資料處理需要用到的九種程式語言大資料
- 大學剛畢業,零基礎大資料如何入門?大資料
- 搞人工智慧開源大語言模型GPT2、Llama的正確姿勢人工智慧模型GPT
- 剛剛,阿里開源 iOS 協程開發框架 coobjc!阿里iOS框架OBJ
- 剛開始找工作所面臨的開發問題
- C語言小白走過的彎路C語言
- 人工智慧和大資料開發需要注意的12點人工智慧大資料
- 轉型進入IT行業,0基礎學習大資料開發需要什麼基礎?行業大資料
- 大資料 (巨量資料集合(IT行業術語))大資料行業
- 蘋果OpenELM:開源小語言模型蘋果模型
- C語言第三篇:C語言資料型別及各資料型別所佔記憶體位元組數C語言資料型別記憶體
- 3天200個開源專案 Swift程式語言資料大合集Swift
- NLP入門之語言模型以及n元文法模型
- 人工智慧大模型之開源大語言模型彙總(國內外開源專案模型彙總)人工智慧大模型
- 《R語言入門與資料分析》——向量索引R語言索引
- 是否需要漢語程式語言
- 小白觀察:開源永存
- 無法開啟登入所請求的資料庫,登入失敗資料庫
- SQL語言基礎(資料控制語言)SQL
- 保險行業需要一個安全的大資料傳輸行業大資料
- 無處不智慧:AI資料的“消費升級”,剛剛開始AI
- 12 種自然語言處理的開源工具自然語言處理開源工具
- 值得學習的C語言開源專案C語言
- 剛學會 C++ 的小白用這個開源框架,做個 RPC 服務要多久?C++框架RPC