DW2.0下一代資料倉儲架構_第19章 DW2.0和非結構化資料(讀書筆記)

thamsyangsw發表於2014-10-27

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

    據統計,在企業裡有80%的資料是非結構化資料。但是當前計算機的技術都是致力於處理結構化、可重複的資料。這導致在企業中做決策
時沒有利用到一些有價值的資訊,文字中的有用資訊沒有成為決策過程的一個重要部分。致力於下一代資料倉儲的DW2.0架構意識到在非結構
化的文字資訊中存在有價值的資訊,必須對文字做一些工作以適合分析處理。而出發點就是文字本身。

文字讀取
    為分析處理而準備非結構化資料過程的第一步就是讀入文字。文字存在於多種格式中,這些格式也可能需要讀入。當原始的源文字被讀
入以後,下一步就是要準備這些資料以輸入資料庫。文字的準備是一個複雜的處理過程,有一些好的理由表明文字必須被處理:1、被結構化
資料需要與關係型格式相匹配。2、非結構化資料必須被整合,這樣分析處理才有意義,如果僅將原始文字簡單地強制輸入資料庫,就會導致
文字不能被有效甚至有意義地分析。

在哪裡進行文字分析處理
    現在即將做一個重要的戰略決策,就是在什麼位置進行文字分析處理:非結構化環境和結構化環境。在結構化環境中進行文字分析要求
非機構化文字被讀入、整合、處理以及儲存在結構化環境中。完成以上工作是一項艱鉅的任務,但是當非結構化文字經過處理被儲存在結構
化環境中,就出現了很多機會。當非結構化資料被整合並儲存在結構化環境中,就可以使用標準的分析技術。一些組織機構已經花了數百萬
美元來培訓員工和使用者,目的就是在結構化技術的基礎上建立一個分析環境。結構化環境中已經有了資料庫技術、商務智慧、ETL、統計性處
理等,利用這些已經存在的分析環境是非常有意義的。現在要做的就是讀取和整合文字資訊的能力,文字ETL的出現就是為了實現這一目的。
所以選擇在哪裡完成文字分析處理時比較容易的,結構化環境就是完成分析處理最好的地方。

文字整合
    整合文字的過程要在將文字儲存在資料庫之前完成,該過程有很多不同的方面,最重要的步驟有
    1、簡單編輯
    2、移除無用詞
    3、同義詞替換和串聯
    4、同形異義解析
    5、主體性聚集
    6、外部術語表/分類覆蓋
    7、分詞
    8、替換拼寫解析
    9、外語自適應
    10、直接或間接搜尋幫助

簡單編輯
    為分析處理準備非結構化文字的第一步是對格式、標點和字型等做一些簡單的編輯工作。這種簡單編輯是非常重要的,將來的分析搜尋
不需要被印刷版式的差異所阻礙。編輯時基本的標點符號、大寫、格式、字型和其他被視為搜尋障礙等方面被移除。

無用詞
    無用詞是一個有助於語言平滑流暢的詞,但其本身卻不包含什麼資訊和意義。例如,一個、和、那、是、那個、哪個、到、從等

同義詞替換
    同義詞替換用來合理化使用不同術語的文字,使其都使用單一的術語。同義詞替換使用的一個標準用詞來替換其他所有和它含有相同含
義的詞。前後一致地使用同一術語是保證可靠地、可重複地查詢資料庫中的非結構化資料的過程中的重要的一步。

同義詞串聯
    同義詞串聯是相對於同義詞替換的另一種選擇,在同義詞串聯中,不是用一個標準用詞來替換同義詞,而是將標準用詞插入到所有出現
的同義詞後面跟它們串聯起來。

同形異義解析
    同形異義解析跟同義詞串聯和同義詞替換正好相反。同形異義解析用來澄清那些有多重含義的單詞和短語,用這些單詞實際表示的意思
來替換或者覆蓋出現在文字中的單詞或者短語。

建立主題
    文字整合後需要做的一個有趣且有用的針對文字的事情是產生一個文字的聚類,而聚類文字則生成主題。在文字聚類中,單詞和短語根
據他們出現的次數和彼此間的形似度而從邏輯上被聚合在一起。聚類同樣也能產生一個術語表和分類法。這個術語表和分類法被稱為“內
部術語表”或“內部分類法”。因為它是從系統內部的文字產生的。該過程被稱為文字聚類生成主題。

外部術語表/分類法
    雖然內部術語表和分類法是很有用的,但外部術語表和分類法同樣也很有用。外部術語表和分類法可以來自任何地方,如書籍、索引、
網路等。外部術語表和分類法可表示任何事情,能用於文字上新增一個結構。文字可被讀入系統,然後可作一個比較來確定該文字是屬於
或者與外部術語表和分類法先關。

分詞
    當文字簡約到希臘文或者拉丁文詞根時,就要對其進行分詞。如果可以識別詞根,那麼分詞就是非常重要的。換一種說法就是,如果單
詞被逐字比較,相關的單詞就不會像他們應該的那樣被聚合在一起。

替換拼寫
    如果想要有效地完成搜尋,就需要包含對可替換的拼寫的需求和實踐。有些單詞有可替換的拼寫方式,許多名字也有其他的拼寫方式。
因為不同的名字的不同拼法,會導致搜尋一種拼寫的時候搜尋不到結果,這是一件很遺憾的事情。

跨語言的文字
    文字分析另一種有用的特點就是運用多種語言的能力。

直接搜尋
    文字分析還有另一種重要的特性,就是支援不同種類搜尋的能力。文字整合需要為這種特徵做好準本,其中一種需要支援的搜尋就是直
接搜尋。直接搜尋的典型代表就是Yahoo或者Google。將引數直接傳給搜尋引擎,然後該引擎查詢所有出現搜尋引數的情況。

間接搜尋
    另一種搜尋型別是間接搜尋。在間接搜尋中,搜尋引數同樣傳給了搜尋引擎,但卻並沒有對其進行搜尋。相反,間接搜尋是搜尋任何與
該引數相關的東西。

術語
    在以分析處理為目的的文字處理過程中有個很大的問題,就是術語的處理。術語之所以是一個問題,是因為語言常以術語的形式表達。
設想人的身體。人身體的任何一部分都有20中方式可以指出它。一個醫生用一套術語,另一個醫生用其他的術語,而護士用另一套術語。
這些不同的人都在談論同一件事情,然而卻是用不同的語言。如果想要對文字進行分析處理,就必須有對術語問題的解決方法。最終的單詞
和短語的文字資料庫必須同時又一般性和具體性的儲存。用於文字分析的最終文字資料庫必須要有原始的醫生和護士用過的具體的單詞,也
要有在整個分析團隊都能理解的一般屬於。如果一個組織不能解決術語的問題,那就不可能彎沉更有效的文字分析處理。

半結構化資料/值=名稱資料
    非結構化資料有不同的種類。最簡單的形式就是好文件中的文字。在文件的文字中,單詞和短語都是沒有順序和結構的,一個非結構化
文件僅僅是個非結構化文件。然而文字文件還有其他的形式。在某種情況下,文件的作者會給出一個可以推斷出來的文件結構。一個簡單的
例子是烹飪書,在一本烹飪書中有很多烹飪的方法。這是一個文件,裡面有隱含的開始和結束。一個烹飪方法結束就是一個開始。很多時候
有必要將書中隱含的結構對映到文字分析資料庫中。在某些情況下,這是一個簡單顯而易見的事情,在令一些情況下,如何對映卻一點都不
明顯。另一種在DW2.0環境下需要特殊處理的非結構化資料形式是一種被稱為“值=名字”的資料形式。要理解這種型別的資料,試想一堆個
人建立。在每一份個人簡歷上都能找到公共的資訊,如名字、地址、教育背景、工資等。能夠理解在非結構化資料中的那種資料正被考慮是
很重要的。換句話說,對於“名字-Bill lnmon”,系統能很方便地分辨出名字是一個很重要的域。這種能按符號感知單詞的能力對建立文字
分析資料庫是很重要的。

準備資料所需的技術
    完成非結構化文字整合的技術通常被稱為文字ETL技術。即怎樣將非結構化資料轉換成關聯式資料庫。

關聯式資料庫
    當非結構化資料已經準備好進行分析處理時,該文字被置於一個關聯式資料庫中。該關聯式資料庫中可能會被各種不同的分析工具訪問和分
析,比如商業智慧工具。

結構化和非結構化的連線
    當非結構化關聯式資料庫建立以後,它將被連線到結構化資料庫,從而形成組織結構中的DW2.0基礎。

總結:
    分結構化資料是DW2.0資料倉儲的一個重要組成部分。
    非結構化資料必須被讀入和整合到DW2.0環境中,非結構化資料的整合過程包含但不僅限於以下內容:
    1、移除標點、字型等阻礙資料訪問和分析的東西、
    2、管理可相互替換的拼寫
    3、分詞
    4、無用詞的管理
    5、內部主題和分類法的建立
    6、同義詞替換
    7、同義詞串聯
    8、同形異義解析
    9、外部分類/術語表分類
    當聚集和整合文字化資料以後,便建立關聯式資料庫以支援分析處理。整合以後,文字資料以關係型格式放置,並建立一個關聯式資料庫。
然後這個關聯式資料庫就可以進行商業智慧處理。最後,這個非結構化關聯式資料庫要和在DW2.0資料倉儲中的結構化資料庫進行連線。
 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1310618/,如需轉載,請註明出處,否則將追究法律責任。

相關文章