從資料收集到資訊挖掘,我們該看重什麼?
說到人工智慧、深度學習,大家總會第一時間想到演算法和模型,再然後就是最根本的、提供動力源的資料。由於人工智慧技術的飛速進步與廣泛應用,我們對待資料的方式已從收集為主轉變為以獲取資訊為主。
如果你不把儲存的資料轉化為可用的資訊,那麼這些資料——狹隘點說——就只是一堆位元組而已。而完成這個轉化的過程之前,有時也需要多年時間來收集足夠的資料,比如醫學方面新工藝、藥物或裝置的試驗;基於不常發生的外部因素的群體行為;氣候變化。
首先,資料儲存的重要性無法否認
關於資料,有一句很拗口的話,你不知道什麼是你不知道的。有個很好的例子:“垃圾DNA”。這一術語是20世紀70年代某遺傳學家發明的,用來表示基因組中95%—98%的不編譯任何蛋白質或酶的DNA。當時的生物學家認為,既然幾乎所有具體的生理機能都要蛋白質來完成,那麼不編碼蛋白質的DNA應該是沒有用的,可以稱為“垃圾DNA”。到本世紀初,人們發現一些垃圾DNA其實調控著染色體的複製方式和時間。
對於當時的人們來說,儲存資料的成本是很高的。當然DNA測序的成本更大,這也是當初人們要保留垃圾DNA資料的原因之一。收集資料的成本很高,儲存資料的成本也很高,正是因此,我們要更加感謝那些在我們之前做出正確事情的人。他們頂著成本壓力儲存了這些舊的資料,讓我們有機會從中發現更多資訊。
我們知道,一些天氣預報中心每天都會儲存所有收集到的資料,包括其預報模型的輸出。當這些網站有一個新的預測模型時,他們通過新的模型執行舊的資料,檢視模型的輸出和觀察,看看新模型是否比舊模型更好,以及有多好。對於一個城市來說,這個工作似乎很容易,但對整個地球來說,是大量的資料和資訊比較。
因此,儲存和資料架構師面臨的挑戰往往是如何通過開發滿足效能、可伸縮性和治理需求的架構來儲存這些資料。
由資料收集向資訊挖掘的轉變
從有資料收集開始,其唯一目的就是要使所收集的所有資料都有實際意義。手工進行資料收集和分析非常耗時,將資料轉換為資訊也既費時又費錢。
資訊時代始於1890年美國人口普查時何勒內斯打孔卡片的使用,儘管它們是空白的,但與你見過的格式化卡片不同。這裡的關鍵問題是,在1890年以前雖然有大量的資料,但並沒有工具來進行分析,而且將其轉化為資訊的成本很高。
很明顯,在1890年的人口普查中產生的資訊在今天的標準下是非常基礎性的。但按照19世紀90年代的標準,卻是革命性的。通過這個辦法,人們能夠非常迅速地檢視人口普查的結果並做出決定(例如,基於資料的可操作的資訊)。
到了今天,我們已經不再把1890年人口普查資料的表格化稱為資訊。資訊的定義——與資料相比——應該基於當代的標準,同樣的,許多其他領域中的某些定義也在發生變革。
資訊分析市場的規模和範圍在不斷擴大,從自動駕駛汽車到安全攝像頭分析再到醫療發展。在每一個行業,在我們生活的每一個角落,都有快速的變化,並且變化的速度也正在增加。所有這些都是資料驅動的,所有收集的新舊資料都被用來開發新的可用資訊型別。圍繞資料收集與資訊發展的需求,有很多問題也因此浮現。
除保持資料活性外,合規性同樣重要
許多需求基於你所擁有的資訊和資料型別。例如,一些可能涉及使用所謂DAR(Data Encryption at Rest,空閒時資料加密),它會對儲存裝置進行加密,這樣如果從系統中刪除,資料幾乎是完全不可能訪問的。(其困難程度取決於加密演算法和大小、複雜性等)。我們可以將這種型別的需求歸納為“可操作性需求”,即資料在發揮價值的整個過程中會對架構、裝置等產生的硬性需求,以確保滿足業務執行所需的效能、可用性和資料完整性,為保持資料和資訊的活性,所有這些問題都需要得到解決。
除此之外,你的資料或資訊也應該基於你所在行業的最佳實踐或地區的法規條例,如最近歐盟出臺的GDPR(通用資料保護條例)。也就是說,你對資料的使用需要始終保持合規性。由此產生的體系結構或過程方面的變化,也是需要架構師來處理的一類重要事務。
最後的想法
要做到合規並不容易,而且也不便宜。決定其成本的因素有很多,但是在計劃和搭建好體系架構之後試圖強制遵從,總是比事前做的代價要高。
筆者認為,在定義合規性需求時,你應該著眼於未來,而不是隻看現在,因為事後硬塞東西的成本和挑戰會更多。這意味著,我們需要不斷地研究行業中的合規性需求,以及最佳實踐。資料在未來只會變得更加重要,我們始終會面對挑戰,何不先定好應對方案。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31473948/viewspace-2155650/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 我們該從Facebook史上最大資料洩露事件中明白什麼?大資料事件
- 資料洩漏!我們的資訊還安全麼?
- 我們該學習什麼?
- 大資料時代,我們應該怎麼保護個人資料?大資料
- 為什麼我們需要資料庫事務資料庫
- 對話天雲資料雷濤:從IT到DT,我們需要什麼樣的資料庫?資料庫
- 對於Linux,我們應該學什麼?Linux
- Vue 3.0 來了,我們該做些什麼?Vue
- 從小眾到火爆,圖資料庫能為我們解決什麼問題?資料庫
- 我們常說的“資料治理”主要有什麼用?
- 在資料二十條中我們能夠發現什麼
- 資訊領域核心技術扼在美國手裡,我們該何去何從?
- 『除了網紅城市,我們從抖音資料中還能看到什麼?』今日資料行業日報(2019.05.29)行業
- 什麼是資料和資訊
- PG資料庫最佳化上我們都能做點什麼資料庫
- 我們為什麼要遠離資料庫生成的ID?- Tugberk Ugurlu資料庫
- IP rDNS(PTR)資訊從理解到情報挖掘DNS
- 什麼是API資料介面該怎麼使用?API
- #AWS:為什麼我們要持續投資Rust?Rust
- 為什麼我們需要訊息佇列?佇列
- 資料分析與挖掘-挖掘建模
- 為什麼我們從Yarn切換到pnpmYarnNPM
- 2020年,為什麼我們應該使用abapGit代替SAPLinkGit
- 119的節日的安排,我們應該做些什麼
- 資料出境是什麼意思?我國資料出境合規要求是什麼?
- 戈小羊:為什麼我們都是大資料時代的“統計文盲”?大資料
- 分享:兩年兩度升級資料庫,我們經歷了什麼資料庫
- 我們為什麼要學習資料結構和演算法?(一)資料結構演算法
- 大資料的發展,給我們生活帶來了什麼影響?大資料
- 怎麼學大資料?該從哪學起?大資料
- 想要玩轉資料視覺化?先弄清我們能用非結構化資料做什麼吧視覺化
- 團隊解散,我們該何去何從?
- 為什麼我們從RabbitMQ切換到apache kafka?MQApacheKafka
- 我們能從幻獸帕魯中看到什麼?
- 為什麼我們從Webpack切換到Vite - ReplitWebVite
- 現如今的技術浪潮中,我們到底該做些什麼?
- 大資料為什麼這麼火?小白該如何去學習大資料大資料
- 資料視覺化為什麼對我們的生活影響越來越大?視覺化