合成資料:到2024年60%用於人工智慧和分析決策的資料將是演算法合成生成的
Gartner 預測(Fake It to Make It: Companies Beef Up AI Models with Synthetic Data)說:“到 2024 年,60% 的資料用於開發 AI 和分析專案將綜合產生”。這是一個非常重要的預測,因為合成資料有很多用途。
合成資料可以幫助您應對以下情況:
- 基於歷史資料的估計或預測模型不再有效
- 基於過去經驗的假設失敗
- 由於現實世界資料集的差距,演算法無法可靠地對所有可能的事件進行建模
合成資料將使營利性公司能夠共享資料,特別是在使用差異化私有合成資料時,透過消除與隱私相關的許可問題的摩擦,並允許在預生產管道中進行更快速的技術開發。
此外,合成資料可用於支援太小或資料集嚴重不平衡的資料集。這將幫助組織構建更復雜的機器學習功能,這些功能通常非常需要資料。然而,這些好處不僅有助於營利部門,而且可以極大地影響公共部門。
真實資料問題
收集真實資料既昂貴又困難,而正確地收集資料則更難。定義收集的資訊的粒度、節奏和型別本身就是一項全職工作。很少有非營利組織有足夠的預算或員工頻寬來致力於強大的內部資料收集和管理系統。不可避免地,更接近非營利組織核心使命的其他活動幾乎總是優先於這些艱鉅的任務,尤其是當投資回報難以計算時。
這就是合成資料可以大放異彩的地方。如果非營利組織收集了足夠的資料(該數量未知,但少於完整的資料收集執行),那麼他們可能能夠訓練合成模型來增加相對較小的樣本。因為如果有足夠的真實資料來源可以使用,即使只有一點點也可以轉化為無限量的合成資料!透過擴充套件資料集,從而更全面地瞭解他們的戰略計劃和每個人的表現,非營利組織可以就在哪裡分配稀缺資源做出更明智的選擇,以便他們可以最大限度地發揮其成果。
英國的一些公務員已經開始倡導使用合成資料來改善政府對資料的使用。例如,在最近由幾家公共機構主辦的公務員競賽期間提出的 200 多個想法中,合成資料被評為最佳之一,作為可用於公共部門的工具,除其他外,“......透過工作和養老金部、英國稅務和海關以及英國簽證和移民部之間更豐富的資料交換來檢測福利和稅務欺詐。
合成資料通常被視為質量較低的替代品,僅當真實資料不便獲取、價格昂貴或受監管限制時才有用。這錯過了合成資料的真正潛力。事實是,如果沒有合成資料,您將無法構建高質量、高價值的 AI 模型。
重新決策
企業高層決策不再僅僅按照企業內部的職能部門進行。它發生在跨多個社群的協作路徑上,這些社群基於正在發生的事情、相關結果和要做出的決定而參與,其中人與機器之間的協作越來越多。
根據 Gartner 最近的一項調查,65% 的受訪者同意決策已經變得更加 複雜。決策需要變得更加聯絡、上下文和連續。它需要重新設計以反映新的複雜性並利用新的機會和能力。IT 領導者, 包括資料和分析領導者在內,他們在重新設計決策和幫助業務領導者取得更大成功方面發揮著關鍵作用。
如何做出決策是數字業務的核心,而資料和分析是如何做出決策的核心:要在當今的數字經濟中取得成功,組織必須採取以下資料驅動的決策:
- 由外部事件通知
- 透過集體知識豐富
- 可重複使用公共學習
- 利用並建立在公共學習的基礎上
- 快速適應新場景上下文
傳統企業不是這樣運作的。許多決策不是使用來自內部和外部不同來源的資料和見解的注入做出的,更不用說資訊流、機器增強的輔助和協作知識共享的豐富。儘管對技術進行了大量投資,並且 CEO 和董事會設定了首要任務,但我們大部分資料驅動的決策能力仍然致力於功能自動化和運營理解,而不是像整個組織範圍內的數字神經系統那樣構建感知和響應能力系統。
然而,尋求實現數字業務承諾的資料和分析領導者,包括首席資料官 (CDO)、資訊長和其他資料和分析領導者,面臨著一系列障礙。數字化難以實現和維持。它需要對現有的資料和分析實踐進行根本性的改變,其中許多已經成功地實現了組織的先前目標。
這實質上意味著資料和分析領導者及其業務同行需要重新設計他們的決策方式。數字化還需要不同的資料和分析策略、文化、技能、治理實踐、組織模式和文化。因此,數字化的前景是巨大的,但資料和分析領導者面臨的挑戰也是如此。
合成資料有助於重新設計決策
11 月發表在《自然》雜誌上的一項研究的作者, 該研究表明使用合成資料替代真實醫療保健資料的有效性。倫敦布魯內爾大學教授艾倫·塔克 (Allan Tucker) 說:“合成資料為醫療保健提供的主要優勢是大大降低了隱私風險,這些風險已經給許多專案[和]開放醫療保健資料以研究和開發新技術帶來了麻煩。”
“合成資料技術”是透過演算法(從現實病歷中採集資訊)建立人工患者群體,有可能在不損害隱私的情況下加速創新,以色列示巴醫療中心的重症監護冠狀病毒科使用合成資料來幫助規劃 Covid-19 患者的治療。
透過司法使用合成資料可以幫助增加與使用新資料來源(例如小而廣的資料)相關的新努力;請參閱2021 年資料和分析的主要趨勢:從大資料到小資料和寬資料。
這些對於醫院實現DRG支付有幫助。
相關文章
- 將VAE用於時間序列:生成時間序列的合成資料
- 利用LLM生成人工合成資料
- 首次!用合成人臉資料集訓練的識別模型,效能高於真實資料集模型
- 醫療領域:合成資料、生成對抗網路、數字孿生的應用
- 2024-2030資料整合成熟度曲線(一)
- 決策革命下支撐資料+演算法的背後是什麼?演算法
- 合成作戰系統開發解決方案,公安大資料分析平臺建設大資料
- 騰訊安全聯合成立資料安全專委會
- 如何透過資料分析來支援TPM模式的決策?模式
- 避免雲分析決策和Hadoop錯誤的七個大資料流言Hadoop大資料
- [譯]更好的資料,更明智的決策
- 機器學習演算法(五):基於企鵝資料集的決策樹分類預測機器學習演算法
- 論道經營分析體系的建設 – 《用資料決策》讀後感
- 論道經營分析體系的建設 - 《用資料決策》讀後感
- 資料探勘(6):決策樹分類演算法演算法
- 合成資料: 利用開源技術節約資金、時間和減少碳排放
- 合成類遊戲的廣告是怎麼回事 合成 養豬 養牛 養成遊戲
- 22國學者在南京探討“群決策”:大資料將助力高效決策大資料
- 資料分析中最缺少的是資料探索工具?
- Datafaker是用於生成類似生產資料的工具 – jworks.io
- undo用於將資料庫邏輯的恢復到原來的樣子資料庫
- 2024年資料和人工智慧領導力報告人工智慧
- WM_CONCA函式兩行合成一行資料函式
- 公安情報大資料分析研判預警系統開發,合成作戰平臺搭建大資料
- 大資料和人工智慧的關係是什麼?大資料人工智慧
- 大資料、厚資料與富資料如何支援業務決策? - Dave大資料
- 史上第一張黑洞照片是用Python合成的?Python
- 什麼是資料分析中的“資料”? - Cassie Kozyrkov
- 外部資料在資料分析中的應用
- 機器學習演算法的隨機資料生成機器學習演算法隨機
- CVPR 2024 | 合成影片資料集裡只有單人資料?M3Act破解人群行為標註難題
- 大資料————決策樹(decision tree)大資料
- 遊戲資料分析核心資料和演算法公式詳解遊戲演算法公式
- 2024年資料分析的五大趨勢和應對措施
- 自動識別最佳分子,降低合成成本,MIT開發分子設計決策演算法框架MIT演算法框架
- 資料結構和演算法分析資料結構演算法
- 關於Sybase資料庫中時間表的建立和生成!資料庫
- 公安合成作戰系統開發方案,大資料視覺化分析平臺建設大資料視覺化