下載kaggle資料集的小妙招
kaggle是很多資料分析和機器學習初學者非常喜愛的資料科學競賽平臺。
這個平臺上有很多接近現實業務場景的資料集,非常適合練手。
今天向大家推薦一個下載kaggle資料集的小工具——kaggleAPI
配置好之後,可以寫個指令碼,以後下載資料就方便多了。
安裝
pip install kaggle
安裝完畢之後執行
kaggle compeitions list
然後就會報錯,提示沒有kaggle.json檔案,不用理他。
這一步主要是讓其執行後生成配置資料夾,一般在C盤-使用者-使用者名稱下的.kaggle
配置
登入kaggle官網
右上角頭像處點選,選擇Account
進去之後滾動到最下面API處,選擇Create New API Token
然後就會自動下載一個kaggle.json檔案,另存到第一步那個.kaggle資料夾
下載資料集
再執行以下
kaggle compeitions list
可以看到近期的一些競賽,重點關注以下獎金????
除了list,kaggle competitions 還有一些其他用法,不展開講了。
kaggle competitions {list, files, download, submit, submissions, leaderboard}
大家最關心的資料集下載
kaggle datasets{list,files,download,create,version,init,metadata,status}
比較常用的是:list(可用資料集列表)、files(資料檔案)、download(下載)
kaggle datasets list
用法
usage: kaggle datasets list [-h] [--sort-by SORT_BY]
[--size SIZE] [--file-type FILE_TYPE] [--license LICENSE_NAME]
[--tags TaG_IDS] [-s SEARCH] [-m] [--user USER] [-p PAGE] [-v]
這個裡面還有2個常用的引數: -s 搜尋,後面可以加關鍵詞;-p 展示多少行,預設是20
kaggle datasets download
用法
usage: kaggle datasets download
[-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
[-o] [-q][dataset]
更真實的用法
如果單純在cmd執行個下載指令就大材小用了,我們還可以用kaggleAPI寫shell指令碼完成更復雜的用法,比如:
#!/bin/sh
DATASET="noxmoon/chinese-official-daily-news-since-2016"
ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip"
DATA_FILE="chinese_news.csv"
DATA_DIR="data"
COL_NAME="headline"
LINES=3000
OUTPUT_FILE="headlines.txt"
if [ -d ${DATA_DIR} ]; then
echo ${DATA_DIR}' exists, please remove it before running the script'
exit 1
fi
echo "Creating dir"
mkdir -p ${DATA_DIR}
cd ${DATA_DIR}
kaggle datasets download -d ${DATASET}
unzip ${ARCHIVE_FILE}
echo "Deleting original dataset archive"
rm -f ${ARCHIVE_FILE}
echo "Extracting, cutting, shuffling data"
awk -v col=$COL_NAME -F ""*,"*" '{print $COL_NAME}' $DATA_FILE | shuf -n 3000 > ${OUTPUT_FILE}
下載-解壓一氣呵成!
參考
github.com/Kaggle/kaggle-api
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2236/viewspace-2807269/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- Redd資料集下載
- 資料探勘資料集下載資源
- [譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
- 遙感影像Trento原始資料集下載
- 機器學習實戰原始碼和資料集下載機器學習原始碼
- Excel 使用小妙招之快速求和小技巧Excel
- 鑲嵌資料集工具小結(四)鑲嵌資料集的屬性 Ⅰ
- 鑲嵌資料集工具小結(五)鑲嵌資料集的屬性 Ⅱ
- 鑲嵌資料集工具小結(六)鑲嵌資料集的屬性 Ⅲ
- 下載資料的處理
- oracle資料下載Oracle
- Linux下Kill多個程式的妙招Linux
- 鑲嵌資料集工具小結(一)建立/刪除鑲嵌資料集
- 【2】Kaggle 醫學影像資料讀取
- 12米空間解析度DEM資料申請下載:TanDEM-X資料集
- pytorch載入imagenet的floder資料集PyTorch
- 批量下載SRR資料
- 英語資料下載
- CRM資料合集下載
- 各版本的資料庫下載地址資料庫
- 判斷請求是否為Ajax請求的小妙招
- 鑲嵌資料集工具小結(十 一)分析、修復、同步鑲嵌資料集
- C++ folly庫解讀(二) small_vector —— 小資料集下的std::vector替代方案C++
- 想快速學會資料視覺化?這裡有一門4小時的Kaggle微課程視覺化
- java相關資料下載Java
- OCP相關資料下載
- aspera下載nr資料庫資料庫
- GEO資料庫下載 SRA資料庫
- 【scikit-learn基礎】--『資料載入』之玩具資料集
- 【scikit-learn基礎】--『資料載入』之外部資料集
- 資料是核心:中國資料資產的新時代(附下載)
- 小程式預載入資料實戰
- 大資料競賽平臺——Kaggle 入門篇大資料
- 微信小程式無埋點資料採集方案微信小程式
- 小葫蘆:2021五五開黑節資料包告(附下載)
- 【scikit-learn基礎】--『資料載入』之真實資料集
- 關於MySQL索引知識與小妙招 — 學到了!MySql索引