大資料與程式語言關係

磊。。。。發表於2020-10-24

學大資料為什麼學java?

如果要學習大資料,不管你是零基礎,還是有一定的基礎,都是要懂至少一種計算機程式語言,因為大資料的開發離不開程式語言,不僅要懂,還要精通!但這門程式語言不一定是java。
比如說,如果你主攻Hadoop開發方向,是一定要學習java的,因為Hadoop是由java來開發的。
如果你想要主攻spark方向,是要學習Scala語言的,每個方向要求的程式語言是不同的。
如果你是想要走資料分析方向,那你就要從python程式語言下手,這個也是看自己未來的需求的。
綜上所述:大資料是需要一定的程式設計基礎的,但具體學習哪一門程式設計,自己可以選擇的。其實只要學會了一門程式語言,其他程式語言也是不在話下的。

學習完大資料以後是否可以就業java相關的崗位?

很多公司剛剛組建大資料部門或者很過公司組建大資料部門但是需要的java的工作量沒有那麼大,沒有必要單獨再招一個專門的java工程師,這種情況下可能現在的工作人員中誰會java,誰就有可能兼職進行java方面的開發。
我們們公司在java階段學習了ssm、springboot、springcloud,在工作中都是可以進行開發使用的。
大資料的開發是以java為基礎,所以學會大資料,基本上java問題也不大。

python在大資料中做什麼用:

大資料的資料從哪裡來?除了部分企業有能力自己產生大量的資料,大部分時候,是需要靠爬蟲來抓取網際網路資料來做分析。
網路爬蟲是Python的傳統強勢領域,最流行的爬蟲框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能夠獨當一面的類庫。
從統計理論,到資料探勘,機器學習,再到最近幾年提出來的深度學習理論,資料科學正處於百花齊放的時代。資料科學家們都用什麼程式設計?
python本身就是一門工程性語言,資料科學家用Python實現的演算法,可以直接用在產品中,這對於大資料初創公司節省成本是非常有幫助的。

python+大資料和java+大資料有什麼區別:

如果單純以開發為主的話,還是建議使用java,因為大資料的好多軟體都是用java來寫的,java是編譯型語言,效率比較高,而python是解釋性語言,需要解釋一行,在執行一行,效率較低。
如果需要寫一些演算法的話,還是建議使用python,因為python支援的現有演算法庫較多,python就是為演算法而生的語言。如果資料的來源有爬蟲的過程,建議也用python語言。Python作為一種輕量級程式語言,語言簡潔開發快,沒那麼多技巧。

大資料的各個框架 hadoop、spark等都是做什麼的,實際的應用場景?

大資料的基礎就是hadoop,hadoop包含三個元件:
hdfs:用來儲存海量資料
mapreduce:用來進行分散式計算的框架
yarn:用來提供資料計算需要的資源
而spark也是一個用來分散式計算的框架,他可以替代mapreduce,spark可以用來做實時處理和離線處理,mapreduce只能用來做離線處理;而且spark支援複雜業務邏輯的迭代計算,mapreduce如果邏輯特別複雜需要多個程式;spark是基於記憶體運算的,而mapreduce是基於磁碟的。

大資料需要學習的語言及特點?

java:大資料的基礎語言,很多軟體如hadoop、hive、hbase、flume、sqoop、zookeeper等這些軟體都是用java寫的,執行起來較快,但是比較繁瑣。
python:解釋性語言,語法沒那麼複雜,支援演算法庫較多。
scala:多正規化程式語言(物件導向和函式式),語法嚴格,程式碼量很少,寫起來很輕鬆,但是不好掌握,在spark開發和flink開發必不可少的程式語言。

相關文章