獨家專訪 JetBrains:技術是企業變革的助力而非驅動力

qing_yun發表於2020-05-29

      【IT168  專訪】把資料當成資產,向資料要價值成為當今企業共同的追求,許多企業組織也紛紛踏上了數字化變革的旅程,而推動企業變革的並不是技術。

  “技術是企業變革的助力,而不是驅動力。企業變革的主要驅動力是不斷髮生變化的消費者行為。技術只是在最初引發了消費者行為的改變,但隨著改變的發生和發展,之後技術則更多是跟隨消費者行為的改變而變化。許多公司遵循趨勢對企業業務進行變革,並不是因為技術本身,而是因為所有人都在使用這些技術。”JetBrains產品經理Andrey Cheptsov在接受IT168採訪時指出。

▲Maria Khalusova

JetBrains產品經理(Product Manager at JetBrains)

▲ Andrey Cheptsov

JetBrains產品經理(Product Manager at JetBrains)

  JetBrains是一家總部位於歐洲的軟體開發工具提供商,大約20年前,在捷克的布拉格,Sergey Dmitriev、Eugene Belyaev和Valentin Kipiatkov三位程式設計師要做一個複雜的大型Java專案,為了提高效率和降低難度,需要一個基於Java語言的開發環境,但是當時市面上卻沒有合適的工具。為了解決自己的問題,他們決定研發一款新的開發工具,創立了JetBrains。JetBrains的開發工具廣受歡迎,目前財富100強企業中的95家都是其客戶。

  近20年來JetBrains見證了技術的發展,如今的資料智慧時代,大資料平臺、資料湖平臺不斷髮展,資料工程師、資料科學家等新職業層出不窮。變革無處不在,企業應該如何看待大資料技術?資料科學和資料工程有怎樣的區別?不同企業對技術的需求有怎樣的不同?

  帶著這些疑問,IT168採訪了JetBrains產品經理Maria Khalusova女士和JetBrains產品經理Andrey Cheptsov先生。Maria Khalusova專注於資料科學、資料工程和機器學習。在此之前,她曾擔任JetBrains的開發倡導者、產品營銷經理等職位,參與IntelliJ IDEA、TeamCity和Upsource等專案。Andrey Cheptsov目前負責幫助JetBrains的IntelliJ IDEA和PyCharm團隊為專業資料處理人員(例如資料工程師和資料科學家)構建工具。他參與了與產品相關的所有工作,包括從產品管理、營銷以及業務發展。

  Maria Khalusova指出在資料資產管理方面,可以看到 近年來從零散的孤立資料儲存向資料湖轉變。但是她不認為這是資料資產管理的最終發展結果。隨著越來越多的資料可以被利用,將資料從資料來源攝取到一個單獨的位置當然是有意義的,但是從長遠來看,這可能會導致可發現性問題。此外,不斷增加的資料實驗數量也可能會對現有的集中式資料平臺造成壓力。也許在不久的將來我們能看到新的資料平臺架構。

  Maria Khalusova還認為“資料科學家”和“資料工程師”這兩種職位角色在行業中還是相當新的,也正因此,通常沒有明確的職責劃分。

  Andrey Cheptsov講到了大資料平臺和JetBrains所提供工具的不同,如果大資料平臺通過提供伺服器端軟體和雲基礎架構來管理和生產資料,那麼JetBrains提供的工具(例如IntelliJ IDEA的大資料工具),則為開發者環境提供了從其IDE高效、便捷地使用這些大資料平臺的能力,比如執行查詢資料、執行和除錯ETL作業、監控作業等任務。

  具體內容,請看採訪記錄。

  IT168:企業越來越重視資料,從資料資源到資料資產轉化釋放價值需要一個過程,您覺得會分為幾個階段?現在到了哪個階段?

   Andrey Cheptsov:從JetBrains的角度出發,我們不能說我們知道所有的企業都是如何進行資料處理的,因為我們所掌握的資訊僅僅是基於我們自己積累的經驗和對市場的洞察,以及從我們的使用者和客戶那裡瞭解到的資訊。以JetBrains為例,我們在工作中會處理和分析大量的資料,其中有些資料會被用於各種專項的運營分析,有些資料被用於探索性分析、建模和培訓機器學習(ML)模型。而模型本身也會產生資料,這些資料也同樣會被收集、處理和用於評估模型。從我們自身的經驗來講,自動化收集和處理資料的基礎架構起到非常關鍵的作用:它有助於資料擴充套件、確保資料隱私安全、增強資料有效性,並且還能提供工具來快速、可靠地執行資料操作。

   IT168:JetBrains在資料資產轉化為價值的過程中扮演著怎樣的角色?提供什麼幫助?(可否舉例說明)

   Maria Khalusova:企業在尋求將資料資產轉化為價值的過程中肯定會遇到許多挑戰,這些挑戰可能來自技術層面,也可能來自組織結構。當涉及技術部分時,企業會希望確保自己有最好的工具來幫助他們的資料科學家和資料工程師,讓他們能富有成效、專注並充滿信心的編寫的程式碼。

  JetBrains致力讓編寫程式碼更加高效和便捷,在此方面有著10多年的經驗,對任何程式語言都是如此。無論是Python、R、Scala、SQL語言還是團隊用來處理、轉換、分析或對資料建模的任何其他語言,JetBrains的IDE都能確保資料團隊更快地建立乾淨的程式碼。

  例如,在大資料世界裡,這一點顯得更加重要,因為企業的某些ETL或分析程式碼甚至能以分散式的方式執行數小時,如果在這樣的程式碼中出現錯誤,可能導致數小時的工作都被浪費掉。除此之外,當工程師開始對問題進行故障排除時,上下文早已不復存在,這無疑將增加故障排除工作的難度和壓力。為了幫助資料工程師減少上下文切換,並提高其Spark程式碼的質量,我們近期推出了Big Data Tools大資料開發工具,它是整合 Spark 且支援編輯和執行 Zeppelin Notebooks 的 IntelliJ IDEA 外掛,目前早期預覽計劃已經發布,它可以為開發者們帶來更高效、便捷的大資料處理和開發體驗。

   IT168: 您覺得大資料平臺、資料湖(Data Lake)和JetBrains所提供的工具在幫助企業挖掘資料價值的時候是一個怎樣的關係?

   Andrey Cheptsov:這個問題很好。我認為大資料平臺與JetBrains提供的工具之間是存在顯著區別的。JetBrains提供的大多數工具都是IDE,就是整合開發環境。這些工具主要針對個人開發者,旨在為他們提供符合人體工學的環境以執行他們的開發任務。我們將多種工具整合到一個環境中來,包括編輯器(Editor)、構建工具、程式碼規範檢測工具(Code linters)、資料庫客戶端(database client)、SSH實用程式(SSH utilities)、Git客戶端(Git client)等等。這些工具不一定都由JetBrains構建,但是將它們整合到一個符合人體工學的應用程式中,就形成了IDE。

  今天,我們看到軟體開發越來越多地涉及到資料。這意味著軟體不再僅僅是一組演算法,而是一組經過資料訓練的模型。收集和處理這些資料,並進行建模和部署機器學習(ML)模型,已成為軟體開發的一部分。所有這些(收集、處理、建模和部署)過程都需要專屬的工具。這就意味著這些工具也必須被整合到開發環境中,開發環境必須不斷髮展以適應新的需求。

  大資料平臺是完全不同的事物,它們提供的是建立和管理資料基礎架構本身的解決方案。這其中可能包括用於收集和處理資料、以及部署和監控機器學習(ML)模型的伺服器端軟體和雲基礎架構。

  概括地說,如果大資料平臺通過提供伺服器端軟體和雲基礎架構來管理和生產資料,那麼JetBrains提供的工具(例如IntelliJ IDEA的大資料工具),則為開發者環境提供了從其IDE高效、便捷地使用這些大資料平臺的能力,比如執行查詢資料、執行和除錯ETL作業、監控作業等任務。

   IT168:資料科學家和資料工程師有很長的歷史了,您覺得二者在職業定位以及資料工具的需求方面有什麼不同嗎?一般什麼樣的公司會設立資料科學家和資料工程師職位?

  Maria Khalusova:不同於您的看法,我認為“資料科學家”和“資料工程師”這兩種職位角色在行業中還是相當新的,也正因此,通常沒有明確的職責劃分。我們看到在某些公司中由資料科學家承擔的職責,在其他公司中這些職責卻由資料工程師承擔。我們也發現,另一個越來越常見的新角色是機器學習工程師,但也是同樣的情況,他們也經常與資料工程發生重疊。

  廣義地說,資料工程師通常必須熟悉那些為分散式資料處理而設計的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他們要具備資料倉儲和資料湖方面的經驗,因為他們需要能夠熟練地使用Java、Scala和Kotlin等JVM語言,並且必須能夠建立和維護大多數資料基礎架構。

  資料科學家則需要了解Python語言、R語言或兩者兼具,並且能夠獲取資料(例如使用SQL或Spark)、整理資料、分析資料、訓練預測模型並將資料驅動的洞察提供給利益相關者。他們需要在統計方法和機器學習方法(包括深度學習)方面有紮實的基礎。在某些公司中,資料科學家也會參與機器學習模型的部署。

   IT168:使用JetBrains的資料工程師多還是資料科學家多一些?資料工程師和資料科學家是向業務線還是IT線彙報工作?

  Andrey Cheptsov:我目前尚未掌握這兩種角色在使用者中的比例,所以很難給出一組確切的數字。但根據我的瞭解,兩種職位的比例應該大致相當。

   IT168:在您接觸的客戶中,不同行業對資料科學家或者資料工程師的需求有怎樣的不同?因為資料科學家通常被認為是網際網路巨頭驅動發展的,有的企業還沒有引入相關職位,目前哪個行業在資料科學家和資料工程師方面應用的更成熟、需求更多?

   Andrey Cheptsov:不同的企業對資料科學和資料工程的需求往往因所處行業或公司規模而存在較大差異。例如,大中型科技公司通常更多地依賴開源解決方案,並且不介意根據自身需求投入基礎架構的搭建。相反,非技術公司則無力構建自己的基礎架構,不得不依靠第三方提供的基礎架構解決方案。當然,大型公司通常需要包含所有內容在內的端到端解決方案。

  但在某些特定的行業中,安全問題才最為重要,比如銀行業、醫療保健行業等。舉個例子,有些公司不允許其僱員或其他任何人實際訪問到它的資料,有些公司在考量到其關鍵工作流程的安全性也無法依靠第三方的解決方案為其提供支援。在這種情況下,安全性決定了哪些工具和解決方案可以用,哪些不能用。然而,儘管有這些差異存在,似乎大多數解決方案仍嚴重依賴於開源解決方案,如Spark、Kafka、Flink、Parquet等。

  這就是JetBrains大資料工具首先支援開源技術,然後才能與企業級解決方案整合的原因。JetBrains大資料工具的另一個特性是,它與大資料提供者完全區分開,資料工程師得以從其使用的大資料供應商抽離,進而專注於工作本身,例如是編寫ETL作業還是訪問資料等。

  關於目前不同行業對資料科學家和資料工程師應用的成熟度、需求情況,也很難給出一個確切答案,畢竟我們更多的是依靠在工作中的觀察來了解這些情況。當然,我們認為包括大資料和資料科學在內的整個資料行業最初都是由網際網路巨頭驅動的,並且現在也是如此。諸如Google、Facebook、Twitter之類的公司是首先有所需求、並有能力進行大規模有效處理資料的公司。我認為它們與其他企業之間存在很大差異,它們的主要業務模型從核心上取決於它們處理大規模資料的效率。當然,他們之所以能領先,也是因為有長期積累起來的技能和經驗。

  由於技術公司蘊含的技術文化,也使他們自然地在資料工程和資料科學方面更加領先。今天,我們看到越來越多的公司開始接受技術文化,因為這已成為競爭優勢所在。與此同時,同樣的事情也發生在傳統產業。今天,各行各業的許多公司都開始嘗試將其業務轉到網際網路上。可以這樣說,未來所有公司遲早都會成為網際網路公司,也都會更加註重技術文化。

  IT168: 回到資料資產方面,您覺得現在以及未來企業在資料資產管理和資料價值釋放有哪些挑戰?

  Maria Khalusova:成為資料驅動型企業是當前許多企業的目標。對於剛剛開始這個轉變程式的企業,可能首先會面臨來自組織內部的挑戰,他們需要擺脫系統的歷史包袱、改變公司文化、在資料專業人才短缺的情況下組建符合需求的團隊。

  從技術角度來看,資料科學在某些情況下的實踐似乎還不如傳統軟體開發成熟。企業可能會面臨以下挑戰:建立可重現的機器學習管道,對資料和模型進行版本控制以進行稽核,與快速發展的技術保持同步。

  資料資產管理方面,近年來,我們看到了從零散的孤立資料儲存向資料湖的轉變。當然,這種轉變使資料科學家可以更輕鬆地訪問和分析各種資料集,但是我不認為這是資料資產管理的最終發展結果。隨著越來越多的資料可以被利用,將資料從資料來源攝取到一個單獨的位置當然是有意義的,但是從長遠來看,這可能會導致可發現性問題。此外,不斷增加的資料實驗數量也可能會對現有的集中式資料平臺造成壓力。也許在不久的將來我們能看到新的資料平臺架構。

  IT168:在一個企業裡面推行一個新的資料工具或者新的資料技術是否會遇到相應的阻力?企業通常都是怎樣解決的?JetBrains會提供怎樣的幫助?

  Maria Khalusova:建立資料驅動的工具和技術會帶來各種挑戰。例如可能會受到遺留文化的抵制,或因系統的歷史包袱造成複雜性影響。從資料專業人員的短缺情況來看,可能導致團隊的僱用和組建過程很困難。另外,對於企業的資料可以提供多少價值這個問題,可能也會因不切實際的期望最終導致失望。當然,這種型別的挑戰是企業需要自身去解決的,而JetBrains能夠從旁提供建立資料驅動性產品上所需要的技術支援。例如,如果需要建立可維護、可重現的程式碼,需要建立程式碼級基礎架構,需要將工具和框架整合在一起,進而來開發新的資料驅動產品,那麼這些都是JetBrains的各種產品可以發揮顯著作用的地方。

   IT168:新技術層出不窮,也有很多企業高層指出技術的引入對於企業而言只是企業變革的開始,更多挑戰是技術之外的其他因素,能否請您談談,您認為影響企業變革的技術以及技術之外的因素有哪些?

  Andrey Cheptsov:這是一個哲學問題。在科技行業從業多年,我個人認為 技術是企業變革的助力,而不是驅動力。企業變革的主要驅動力是不斷髮生變化的消費者行為。技術只是在最初引發了消費者行為的改變,但隨著改變的發生和發展,之後技術則更多是跟隨消費者行為的改變而變化。許多公司遵循趨勢對企業業務進行變革,並不是因為技術本身,而是因為所有人都在使用這些技術。

  企業變革的另一個重要驅動因素是市場競爭。一旦消費者的行為和一些公司的業務開始發生變化,其他企業通常會為保持其市場競爭力,也開始採用新技術進行變革。大多數情況下是技術先出現,而後發生變革。有些人認為,在一項技術出現的初期,它們通常尚不成熟。確實如此。 唯一能夠讓這些技術變得成熟的驅動力就是需求的增長,有需求才能推動技術發展。我認為真正推動全球範圍內的企業發生變革的是消費者行為的整體變化。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2694993/,如需轉載,請註明出處,否則將追究法律責任。

相關文章