CCA175考試總結

22號的發表於2017-09-05
  1. 考試內容,總計有10題,全部為實踐操作題

1> 前五題分別為(sqoop,hive)

1).sqoop-import

2).sqoop-export,

3).hive建立表,並且將已經存在於hdfs上的表匯入到新建表中

4).hive建立avro型別的表

5).hive建立一個分割槽表,並且匯入資料

2> 6-9題為spark的python 和scala解析資料題目,考試模式為哪種原始的程式碼題空題目,不需要考試者從頭到尾的完成所有程式碼,只需要填充那些缺失的程式碼部分,基本內容為載入hdfs上的資料,解析資料,過濾資料,排序,join資料,將處理後的資料儲存到hdfs上

3> 第10題,一個排錯題,提供一個有錯誤的腳步去除錯讓腳步能夠正常執行,

我考的這題是一個hive的avro表,查詢時報錯,修改該表的schame讓查詢能夠正常執行(僅供大家參考)

4> 小結:從考試內容來看基本都是基礎知識的考察,沒有考察那些技巧性的內容和比較深奧的、偏門的知識(基本將培訓的習題做做熟練基本能夠通過考試)

  1. 考試環境

1> 考試環境可以用一個“爛”子來形容,字型小的需要貼著螢幕看,滑鼠移動有較長的延遲,執行的速度一般

2> 考試的環境是一遠端的linux環境,全部英文,沒有中文

3> 考試中可以檢視hive,sqoop等相關技術文件,在頁面中已經明確的給出連結地址,直接點選即可

4> 操作時"open in Terminal" 即可

  1. 備考心得

1> 建議大家將培訓中的習題做做熟練

2> 考試中未涉及 impala 和flume的內容

3> 熟練掌握sqoop的匯入匯出,指定分隔符,指定檔案儲存型別

4> 熟練掌握hive的ddl,建立資料庫,建立外部表,建立表時指定分隔符,指定檔案儲存格式,指定檔案位置,建立分割槽表,向分割槽表中匯入資料

5> 熟練掌握scala,python的基本語法

6> 熟練掌握spark的rdd的相關基本操作,map,filter,join.mapValues,keyBy,sortByKey,textFile,saveAsTextFile等操作

7> 熟練掌握count,collect,take等操作

8> 能夠熟練的解析文字(難度以習題難度為準,我初始準備時考試準備的難度偏難(解析複雜的文字,解析複雜的xml,解析複雜的json,而且去背各種import類路徑和工具方法)但是從考試內容來看完全沒有必要,)

9> 考試時請做好時間安排,兩個小時的時間很緊張,多半不夠用,一旦在考試中出現各種exception多半會崩潰

  1. 為了節省考試時間,我建議如下方式操作

1> 不建議開啟太多的"open in Terminal",最多不要超過3個,太多切換來切換去會暈。

2> 由於為實際操作題目,執行過的程式碼基本不能在找回,建議使用系統中自帶的"Emacs"編輯器,編輯程式碼,儲存程式碼,在此編輯器中編寫好程式碼後在複製到命令列中執行,如果執行出錯可以在進行修改。(建議在練習時熟練掌握emacs的常規使用方式,特別是“複製”和“粘帖”操作)

3> 使用"emacs"需要設定字型,系統的預設字型肉眼基本無法辨識,建議修改編輯器的字型大小

4> 命令列的 字型也可以根據需要進行設定(我未設定,直接使用預設設定)

5> 在考試過程中要充分的使用複製和粘帖操作(如相關的路徑資訊,帳號資訊,資料庫表名,欄位名稱),以免自己的輸入產生錯誤導致執行出錯,而且可以節省

  1. 關於考試成績

1> 考試完畢後大概30分鐘後會收到郵件告知考試成績

2> 我考了兩次第一次由於環境的各種不熟悉和考試模式的不熟悉只做成功了5題,作為第5題時已經花去1個半小時,多半由於自己的輸入失誤導致出現各種錯誤,又由於怕程式碼丟失開啟太多的視窗,所以在這裡建議大家熟練使用emas編輯器,使用複製貼上操作,不要開啟太多的視窗,第二次我吸取的第一次的教訓大大提高了考試速度10題全部做完,順利通過了考試。

以上內容為個人一點小小經驗僅供參考,祝大家考試通過 第一份 Hi All,

I am Pramod Sripada, Masters Computer Science student at Indiana University Bloomington. I am also a Cloudera Certified Apache Spark and Hadoop Developer. I have given my CCA 175 exam recently on 7th November 2016. I have been getting many queries about the examination from a lot of exam takers, so I have decided that I share some tips which would be useful for future CCA 175 exam takers.

Preparation: 1. Durga sir's CCA playlist covers the syllabus adequately, if you have prepared it, then you will find the exam easy. 2. For revision, if you feel that the playlist is too long, go through the private training playlist here: https://www.youtube.com/playlist?list=PLf0swTFhTI8rPoYMMZGs44FZX4qGbfjTu181, which covers almost all the topics for the playlist but not in the level of depth as the original CCA playlist. 3. I strongly recommend a final revision by going through CCA course on itversity website. It has lots of examples demonstrated and reading the text will help to revalidate your knowledge. 4. Be strong with Hive and Sqoop basics, practice as many examples as possible in different scenarios. 5. Evolve Avro schemas, by imagining hypothetical scenarios, and practice it till you are confident. Make sure you are aware of all the Avro data types and you can evolve the schema. 6. Practice partitioning as mentioned in the syllabus, try partitioning with different columns and understand the nuances behind it. 7. Spark consists of two sections with Scala and Python, the questions will be of a basic standard with filling in the blanks, but do practice all the questions in the playlist, it will give you the confidence to tackle simpler questions.

Exam Delivery: During the exam, I faced some issues and wasted almost around 30 minutes in my examination and panicked. Some tips for a smooth exam would be 1. Please go through the videos towards the end of the CCA playlist that covers the common issues faced by exam takers, it is very important please don't neglect it. 2. Try to login into a Ubuntu machine and become familiar with how to use it. 3. Learn on how to increase the font size of terminal (Go to preferences on the left top corner) 4. Learn on how to run a .sh file, in case if you are not able to run it, you can open the file using vi editor and run each of the commands individually. 5. Make sure you go through the question completely and then start coding, as the expected output might be different than what you thought. 6. Validate the output, before moving to the next question helps if in the last minute you are not able to verify your answers. 7. Set aside 15 minutes of time in the end and verify all your answers. 8. If the time is over, don't leave any unsaved files and quit the examination, save all files and then end the examination.

Hope the tips would help you in your certification journey. Thanks @itversity for such an amazing job. https://www.linkedin.com/pulse/why-what-how-cca-spark-hadoop-developer-exam-cca175-bombatkar?trk=prof-post CCA-凌雲 13:41:08 https://hdp500.atlassian.net/wiki/display/FKDLSAJ/Demo_CCA175

題目

  1. 第一題 sqoop import to hdfs as text file

  2. 第二題 sqoop export to MySQL

  3. 第三題 sqoop import to hdfs as parquet

  4. 第四題 hive create table using existing data, field delimiter

  5. 第五題 hive create table with partition and insert data!

  6. 第六題 spark+scala join reduce

  7. 第七題 spark+python join reduce

  8. 第八題 spark+scala filter

  9. 第九題 spark+python sort

  10. 第十題 avro schema evolving

考試總結

  1. 瀏覽器連結遠端伺服器, 會非常卡!!! 一定要用多桌面+文字編輯器+多 terminal 的方式做題, 不然時間會不夠!

  2. 題目都不難. 認真讀完題幹然後在寫

  3. 剛開始做的有點慢, 前25分鐘才做完2題. 後來慢慢進入狀態. 但是第五題忘記如何建立 hive 分割槽表浪費了些時間. 及時跳過後剛剛踩著時間線做完題目, 但是中途連線伺服器有些問題, 導致第五題和第九題的結果沒有儲存到 Hive 中!

  4. 即使答案不對, 也絕對不能刪掉已經做出來的結果!!!! 因為重新跑一邊的時間真的會很長! 一定要一次作對!

  5. 做完每一題都要及時檢查結果, 真的有可能最後沒有時間檢查!

  6. 最後剩餘5分鐘檢查時間不夠. 最好是可以剩餘15分鐘進行檢查!

  7. 要及時跟考官問詢剩餘考試時間, 合理安排自己的時間!

  8. 在剩餘33分鐘的時候還剩4道題, 前面的題目用掉的時間太多!

  9. 不是考完立馬知道成績, 要等郵件通知. 具體時間考官也不清楚.

  10. 這次考試有兩道題目的結果未提交到 Hive 中, 剩餘八道題目的結果都及時提交. 獲得證照的最低分是對70%的題目. 希望所有提交的答案都能正確! 最怕有些小細節扣分!

  11. 這次考試的題目重點多在 sqoop (3), hive(2), spark [scala(2), python(2)], avro (1)

複習總結

  1. 平時浪費的時間太多, 沒有有效的分配時間

  2. 刷題刷的太慢, 導致後面很多知識點需要重新溫習+練習+記憶

  3. 重要的知識點未掌握牢固, 比如 hive 建立分割槽表 應該很輕鬆的寫出來! (後來發現問題原因: 1. 忘記新增 row format delimited 在 fields terminated by; 2. 分割槽使用的 column 不應該出現在表結構中!)

相關文章