究竟多大才算是大資料,大資料怎麼學習?

大資料學習發表於2019-07-27

大資料,什麼是大資料呢?多大的資料叫大資料?紅火一時的資料分析走向了我們,紛紛稱不分析資料企業將長久不了,可是究竟什麼樣的資料才是大資料呢,什麼樣的資料才是最大的呢?

如果你沒有接觸過大資料,那麼你就不知道大資料究竟有多大,大到什麼樣的資料才能稱之為大資料。那麼,根據資料收集的埠,企業端與個人端之間,大資料的數量級別是不同的。

究竟多大才算是大資料,大資料怎麼學習?

大資料開發學習有一定難度,零基礎入門首先要學習Java語言打基礎,一般而言,Java學習SE、EE,需要約3個月的時間;然後進入大資料技術體系的學習,主要學習Hadoop、Spark、Storm等,

什麼是大資料 究竟多大才算是大資料

大資料是什麼?

多大的資料叫大資料?

很多沒有接觸過大資料的人,都很難清楚地知道,究竟多大的資料量才可以稱之為大資料。那麼,根據資料收集的埠,企業端與個人端之間,大資料的數量級別是不同的。

在這裡還是要推薦下我自己建的大資料學習交流群:251956502,群裡都是學大資料開發的,如果你正在學大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。

企業端(B端)資料近十萬的級別,就可以稱為大資料;個人端(C端)的大資料要達到千萬級別。收集渠道沒有特定要求,PC端、移動端或傳統渠道都可以,重點要達到這樣數量級的有效資料,形成資料服務即可。很有趣,大家可以看到2B和2C,兩類大資料差了兩個數量級。

有些小公司,資料只有千到萬級的規模,但經過收集分析,也能從中有針對性的總結出這一群體的原則,同樣能指導企業進行一定程度的使用者分析、獲取或者是服務工作,但這並不是大資料,而是一般性的資料探勘。

剛剛分享的那個案例,說今年年初有個用50塊本金擺地攤賣水果的中年人,他並不懂得大資料,但是他對水果的收成了若指掌:他知道哪個地方下了多少雨,水果的甜度會到多少,哪些地方的消費者會喜歡吃這個甜度的水果。賣到最後賣出了137家門店、4.7億的年銷售額。

這確實是一種小的資料探勘,但並不是資料分析。大資料分析雖然脫胎於此,但大資料面向的是更海量的一個資料,藉助了更廣義的知識資料庫的分析方法。大部分的資料公司的資料來源是海量的,它的收集和分析,並不是侷限於個體,而是以一個非常非常廣泛的群體為物件展開的。

大資料的產業鏈是怎樣的?

我在接受採訪的時候,依照大資料公司在產業鏈的上下游關係,提出把它們分成三種不同類別:

大資料採集公司

所謂“找資料”,內部可以再分兩種:

在自身正常運營的過程中就能產生大量資料來源;

透過跟電信運營商、金融企業合作,獲取資料來源。

大資料分析公司

這一類公司,基本上都有自己的套模型,但大部分資料庫模型源於相同的幾個機理,包括統計學模型、深度學習演算法等等。也基於美國IBM、cloudera公司開發的應用型分析模組等等。

大資料銷售公司

雖然說是賣資料,但出售的並不是單一資料,而是基於資料的全套解決方案,比如精準營銷等等。

這三類公司是如何協作,並把大資料作用於我們的生活呢?最容易理解的就是現在在微信朋友圈上投放的廣告。

騰訊在把廣告推廣給每個使用者的時候,都已經對使用者做過精準的分析。透過收集人們在微信上使用習慣,進而分析使用者的消費能力、消費習慣,形成一套精準營銷方案後,給廣告商生成一些定向的廣告。

比如說,蘭蔻的廣告就從來不會推廣給男性使用者、豪車廣告也不會推給應屆畢業生。整個的微信廣告體系都用到了大資料的分析模式,大家普遍反饋,在騰訊上投放的廣告比網易、新浪等平臺上投放的廣告轉化率高,正是得益於騰訊的大資料基礎。

大資料公司的投資價值

如何理解大資料的投資價值?

大資料如今這麼火,其商業價值顯而易見,但是能真正兌現的人並不多。

要兌現大資料的商業價值,第一個要求,就是達到大資料的資料量級。那麼目前,在資料量上最有優勢是BAT三家。在PC時代,百度在資料上的優勢非常強,但到移動時代,騰訊和阿里實現了反超。

騰訊有微信、QQ,拿到了移動端資料生成量的九成;阿里利用它的消費資料資源,更有垂直性。那麼對於中小企業、創業企業而言,兌現商業價值的重點就變成了,如何在自身規模較小的時候,利用別人的大資料資源為自己的創業更好的服務。這是需要深層次判斷和挖掘的。

所以,對於資料相關的公司,在投資判斷的時候,不單是看現有業務的發展,更重要的是在他不斷的發展的過程中,能不能積累有效資料、積累高準確性的資料,實現資料的實時更新性。這樣的企業才能夠更好地建立起競爭壁壘。

比如,在開發者服務領域,比如talkingdata極光等等,我們復星昆仲在看專案時非常看重的一點,就是現在專案所經營的業務是單一為開發者提供服務?還是在服務之餘,給自己的積累有效資料,形成長期壁壘?

2B是大資料行業的突破口

我之前有提到BAT對大資料收集是壟斷性的,創業企業想要在C端達到海量資料(千萬級甚至上億的C端使用者)非常難。目前,國內月活真正過億的app只有15個,滲透率前10的app都是BAT所控制的,比如微信、QQ、淘寶、UC瀏覽器等。如果繞開BAT,能擁有C端海量資料的,就只有相對傳統的電信業、金融業等等。

可見,如果想投資大資料領域的公司,從C端下手難度很高。所以,我覺得在如果想在大資料行業佈局,2B領域才是關鍵:一方面2B發展較晚,BAT還沒有形成壟斷;第二,開發門檻相對較高的;第三,資料量需求量相對較少,達到十萬級別就可以為大資料的分析服務,所以如果想在大資料領域進行投資,要關注的主要領域是2B領域。

在2B領域,有三個不同的類別:

第一類,是B2B交易平臺;目前的趨勢,基本上是行業垂直領域的電子商務交易平臺,核心競爭力就是打破買賣雙方的資訊不對稱、不透明。所以這種領域公司的關鍵點並不是記錄交易量,而是每一個有效的資料資訊。在這個領域,我們投資過惠民網,主要服務於中小商超和其供貨商的交易平臺,再比如各種“找”系列專案等等。

第二類,是現在很火的企業服務,以SaaS為主;比如客戶管理的CRM、人力板塊的HRM等等。他們在得到使用者許可並保證資料安全的前提下,透過服務大量的企業來積累企業使用者,和企業員工資料。比如理才網等等。

第三類,是針對於開發者的服務;雲端儲存、執行資料的統計推送以及app內的即時通訊等。

復星昆仲主要是在這三類的2B專案當中的進行投資,因為這些專案的2B業務模式可以有效積累大資料。這就是為什麼復星同時關注大資料和2B領域的企業服務——因為在2B領域的企業服務,能夠找到最好最有效的大資料。

2B行業的未來投資標的

如果我們預測一下這個行業的未來,我有以下幾個觀點。

擁有豐富大資料來源的企業,會成為整個行業內最炙手可熱的投資標的。

在大資料行業裡,分析演算法上的差別,造成的分析結果準確性、實用性的差異是93分和95分的區別。而因資料來源質量造成的差別,是60分和90分的不同。特別是,一個不斷更新的大資料,是能夠驗證這個演算法準確性並不斷最佳化大資料分析結果的有效途徑。

先行繫結最急需資料的需求方的專案,將獲得勝利。

目前,在大資料領域最願意買單的基本都是金融領域的客戶,銀行、保險公司等等。他們要對使用者進行多方位的分析和服務,所以購買意願非常強。下一層,是新興的網際網路公司,為了更精準的獲取使用者、提高轉化率,也比較願意買單,比如說像新美大等等。下一步,可能會過渡到消費品行業當中去。

基於大資料的那些商機

智慧硬體和人工智慧的收穫期還很漫長

大資料和智慧硬體相結合的模式,其實目前還很有挑戰性,最主要的原因還是出在大資料的數量級上。目前智慧硬體的出貨量遠不能匹配大資料所需的數量級。目前,國內出貨量最大的是小米手環,第二是360兒童衛士。剩下的智慧硬體出貨量,往往在十幾萬到幾十萬就是比較好的量級。這跟C端大資料千萬、億級的要求還相差百倍呢。

人工智慧領域相對好一些,屬於如日方升的情況。在海外的谷歌、亞馬遜、軟銀,已經在投資一些投資標的,但是依然是一些概念領域的專案,不是立即可以商業化的服務。包括谷歌的無人車,就算已經能夠積累了上百萬英里的安全駕駛里程,但要應用還是有一定過程。國內也有少數的天使、早期機構,已經看好這個領域開始投資,但它的開花結果期那可能還要至少再等五年。

所以,這個領域的投資要有一定耐心,目前比較有希望兌現的領域,包括語音語義識別、AR/VR、無人機等。

SaaS類專案憑什麼火?

很多人其實不明白SaaS模式和傳統的軟體服務到底有什麼區別,為什麼說它是一個基於大資料而興起的行業呢?

SaaS和傳統軟體服務,中間有非常多的區別。最基礎的區別,就是他們整個架構是不同的:SaaS是建立在公有云上的,標準化的模組服務,資料也儲存在SaaS的公有云平臺上。而傳統的軟體服務基本上是部署在區域網內的。這種架構上的區別決定所有的其他區別。

比如,因為SaaS架構在雲端,而且秉承標準化、普適化原則,所以,實施過程非常快。至少,實施前的現場搭建工作要少很多,那麼獲取使用者也相應的加快。能傳統模式要很長時間才能累計幾百個客戶,而SaaS模式可以在短時間內累積上千、上萬的客戶都不難。

再比如,付費模式上的不同,傳統軟體有前期實施費、每年更新的費用、專門的定製服務費用、故障解決費用等等。整體來講,費用高、繳費繁複,往往只有大企業才消費的起。而SaaS一方面減少了初期部署成本、且系統和架構可以服務於多個使用者。它的收費模式基本上,是收月費或者年費,一個月只有幾百塊,很多中小企業,都可以享受到服務。

Q&A環節

Q:小散參與大資料、AI的SaaS的投資是否可行呢?

A:我覺得,目前小散想要參與這一領域投資的唯一途徑,可能就是透過股權眾籌。這些專案的行業門檻決定了,小散要想投這類專案最好還是透過專業性的眾籌平臺。

具體而言,原因有幾個方面:

專案的門檻高。我們小散接觸專案往往是透過自己的朋友圈子,但這類專案的創業者基本都是專業人員,我們的小散是接觸不到的。

這類專案對創始人的專業經驗要求高,小散難以進行這種專業性的專案盡調。而專業的眾籌平臺,在把專案推廣給各位於中小投資人之前,就已經對專案做過背景調查。實現對於小散投資實現一個保護。

總而言之,這類專案行業門檻高,專業性要求高,小散想投資一定要找天使客這樣負責任的眾籌平臺

Q:大家都說我們現在處於網際網路時代,您強調我們現在是資料資訊時代。這怎麼理解?

A:我們現在就已經處在大資料資訊時代,大資料和網際網路移動網際網路是不相沖突的,而且恰恰是網際網路,特別是移動網際網路的出現,使得可以有效採集的大資料大大提升,所以大資料時代是和移動網際網路手挽手一起走過來的。

什麼是大資料,究竟多大的資料才能稱之為大資料,你知道了嗎,如果想要學大資料技術,那就努力吧,在未來的路上,懂得分析資料,你才能掌握未來!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2651961/,如需轉載,請註明出處,否則將追究法律責任。

相關文章