寫一個Spark DataSource的隨手筆記
真的只是個隨手筆記。記錄下一些操作過程。
背景
最近需要實現一些Spark邏輯計劃和物理計劃的最佳化,遂打算寫一點簡單的資料來源來測試。突然想到了Oracle常見的scott/tiger裡的資料。遂打算使用該資料。
獲得資料
畢竟裝Oracle是個大工程,沒有必要為了做個測試單獨安裝一個Oracle,於是用Docker,這裡推薦一下阿里的Docker Oracle映象庫:
https://dev.aliyun.com/detail.html?spm=5176.1972343.2.2.2f075aaaGOYe3m&repoId=1969
按照其方式啟動Oracle映象並sqlplus登入sysdba以後,為了確保scott/tiger沒有被鎖,還是做了一下解鎖操作:
SQL> alter user scott account unlock;
然後退出sqlplus並用scott/tiger重新登入sysdba,並且檢視scott的表:
SQL> select table_name from user_tables;TABLE_NAME ------------------------------ DEPT EMP BONUS SALGRADE
沒有問題。
在此只做一些簡單的測試,所以並沒有使用jdbc方式在test類裡獲取資料,而是直接拿了一些資料hard code在test類裡。
寫Spark DataSource API
實現了簡單的謂詞下推功能。詳細Datasource程式碼見GitHub,裡面還包含了一個tpc-ds的DataSource:
作者:orisonchan
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/855/viewspace-2811960/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- spark ml 隨機森林原始碼筆記一Spark隨機森林原始碼筆記
- Spark學習筆記——手寫數字識別Spark筆記
- Bitbucket / Sourcetree 隨手筆記筆記
- ios layoutSubviews呼叫隨手筆記iOSView筆記
- SpringBoot隨手筆記Spring Boot筆記
- 隨手記_論文讀寫策略
- Neeto-Vue:我為了記筆記,手寫了一個為知筆記客戶端Vue筆記客戶端
- 手寫一個迷你版 HashMap,面試隨便問!HashMap面試
- 隨手查閱的正則匹配筆記筆記
- spark筆記Spark筆記
- 我寫了一個從DATASOURCE取得CONNECTION的工具類,大家看看
- 有關AsyncTask的一些隨筆筆記筆記
- Cris 的 Spark SQL 筆記SparkSQL筆記
- spark學習筆記--Spark SQLSpark筆記SQL
- 手寫一個自己的PromisePromise
- 隨筆記筆記
- 手寫一個PromisePromise
- Mac智慧手寫筆記軟體Mac筆記
- spark學習筆記-- Spark StreamingSpark筆記
- Cris 的 Spark Streaming 筆記Spark筆記
- Spark簡明筆記Spark筆記
- spark學習筆記Spark筆記
- spark入門筆記Spark筆記
- Spark 學習筆記Spark筆記
- Git.Framework 框架隨手記-- 分享一個"比較垃圾"的專案GitFramework框架
- 【vue隨手筆記】Vue設定靜態常量Vue筆記
- 高併發秒殺專案隨手筆記筆記
- 手寫一個簡易的WebpackWeb
- GoodNotes 5:Mac上的手寫筆記神器GoMac筆記
- Spark學習筆記(三)-Spark StreamingSpark筆記
- SQLLDR的一個筆記SQL筆記
- 隨堂筆記筆記
- 隨手記一記之【JS資料型別】JS資料型別
- 前後端資料互動形式隨手筆記後端筆記
- 《DBA手記一》讀書筆記筆記
- 隨記筆記未整理筆記
- spark學習筆記--RDDSpark筆記
- spark學習筆記--叢集執行SparkSpark筆記