原創作品,轉載請聯絡作者:微信(sunx5126)。
摘要:隨著大資料時代的到來,各行各業湧現的海量資料對資料處理的技術提出了新的挑戰,而特徵選擇作為一種常見的降維方法也得到越來越多的重視。本文概述了特徵選擇的流程和分類,然後主要從其優化發展歷程詳述不同類別特徵選擇演算法的研究和應用,並基於此指出今後特徵選擇的發展方向。
關鍵詞:特徵選擇 特徵關聯,無監督,非完備系統,非均衡類別
Abstract:With the advent of the era of big data, huge amounts of data that appeared in all walks of life brings a new challenge to data processing technology, as a common dimension reduction method, feature selection is becoming a more and more hop topic. This article outlined the general process of feature selection and classification, and then mainly analyse the development and application of the different category feature selection algorithm based on its performance optimization, and points out the future trend of feature selection.
Keywords: feature selection, non-supervision, incomplete information systems, unbalanced category
1 引言
特徵選擇指的是從原始輸入的特徵中選擇使得某種評估標準最優的特徵子集的過程。在其發展初期,主要是從統計學和資訊處理的角度進行研究,所涉及的問題通常特徵數目不多[1 2 3]。隨著網際網路技術的發展,各行業資料的增加,特徵選擇也得到越來越多的重視,被廣泛研究和應用。
2 定義及基本流程
2.1 特徵選擇定義
給定樣本資料集T={O,F,C},其F={f1,f2,…fm},C={c1,c2…cm},O={o1,o2,…om}分別表示特徵,類別和資料樣本集。令J:2F→[0,1]為特徵子集的評價函式,其中J(X)的值越大,表示特徵子集X所含資訊量越多,在這種情況下,特徵選擇演算法通常有如下三種型別:
1 從特徵集F中找到一個特徵子集X,使得J(X)最大;
2 給定閾值J0,從F中找到一個最小自己X,使得J(X)>J0;
3 從F中找到一個子集X,使得J(X)儘量大,且X中的特徵束儘量少。
這三種表示方式體現了特徵選擇的不同方面和側重點,其中第一條著重所選特徵子集所含資訊量,即選擇過程中儘可能不丟失資訊;第二條強調選擇一個滿足給定條件的最小子集;最後一條則是在子集大小和資訊量之間去一個折中值。
2.2 基本流程
一般而言,特徵選擇過程由初始子集設定,搜尋策略,子集評價和終止條件這四個部分組成。
初始子集設定是特徵選擇演算法的開始,它的選擇對後面的搜尋策略有直接的影響,如果初始子集S為空,搜尋過程將向選擇子集中加入候選特徵,即前向搜尋;如果初始子集為原始特徵空間,搜尋過程將從特徵子集S中不斷剔除無關或不重要的特徵,即後向搜尋;如果特徵子集從特徵集F中隨機產生,那麼搜尋過程採取隨機搜尋策略新增候選特徵或刪除已選特徵。
終止條件是根據候選子集的評價分值J(S)或其他約束條件判定當前候選子集S是否滿足預先設定的條件,若條件滿足,則選擇演算法結束,返回後選擇特徵子集S作為最終結果,否則搜尋過程繼續迴圈,生成新的候選子集,直到終止條件滿足即可,特徵選擇演算法中經常使用以下終止條件:
(1) 候選子集S的特徵數目超出預先給定的閾值
(2) 搜尋迴圈的次數超出預先給定的閾值
(3) 評價函式值J(S)達到最高或是最優
(4) 評價函式值J(S)超出預先給定的閾值
搜尋策略和評價標準是特徵選擇演算法的兩個關鍵問題,好的搜尋策略可以加快選擇度,找到最優的解,好的評價標準可以保證所選擇的子集資訊量大,冗餘小。
評價標準指根據某種評價準則中對所選擇的特徵及其子集的優劣程度進行評估的手段,直接決定選擇演算法的輸出結果及分類模型的效能。評價標準的選擇一直都是特徵選擇演算法的研究熱點,到目前為止,提出了許多評價標準[4,5,6],包括: 距離度量,一致性度量[7,8],依賴性度量[9],資訊度量[10],分類誤差度量[11,12]。
3 分類
採用不同的評價標準,特徵選擇演算法大致可以分為以下幾種型別:
1) 搜尋策略:基於窮舉搜尋,序列搜尋,隨機搜尋
特徵選擇過程某種程度上就是一個子集搜尋尋優問題。窮舉式搜尋指的是對特徵空間每一個特徵進行評價和度量,可以搜尋到每個特徵子集。通常開銷大,計算時間長,不適合大規模的資料處理。
序列搜尋在搜尋過程中依據某種次序不斷向當前特徵子集中新增或剔除特徵,從而獲得優化特徵子集。比較典型的序列搜尋演算法如:前向後向搜尋[13]、浮動搜尋[14]、雙向搜尋[13]、序列向前和序列向後演算法等。序列搜尋演算法較容易實現,計算複雜度相對較小,但容易陷入區域性最優。
隨機搜尋由隨機產生的某個候選特徵子集開始,依照一定的啟發式資訊和規則逐步逼近全域性最優解。例如:遺傳演算法(Genetic Algorithm, GA)、模擬退火演算法(SimulatedAnnealing, SA)、粒子群演算法(Particl Swarm Optimization,PSO)和免疫演算法(Immune Algorithm, IA)等。
2) 度量標準:基於距離,依賴性,一致性,資訊熵和分類誤差
度量標準指用來評價特徵選擇演算法效能的及其子集的優劣程度的手段。
基於距離指的是採用歐氏距離,馬氏距離等標準來衡量特徵間的相關性以及特徵與類別間的相關性。在向量空間模型的支援下,距離遠則表示相關性小,距離近則表示相關性大。
依賴性利用類別域特徵之間的統計相關性質度量特徵的重要性程度,即如果已知兩個變數是統計相關的,那麼就可以利用其中一個變數的值來預測另一個變數的值,當前,已經有許多統計相關係數,如t-test,F-measure,Parson相關係數,概率誤差,Fisher分數[15]等來描述特徵間及特徵與類別的相互依賴性。
一致性度量:給定兩個樣本,若他們的特徵值均相同,但所屬類別不同,則稱它們是不一致的,否則是不一致的[16]也就是說,不一致樣本間是互相矛盾衝突的,因為它們具有相同的性質特徵,但屬於不同的類別,樣本資料集的不一致性指該資料集中不一致的樣本數與樣本總數之間的比例,一致性度量標準就是利用這個特徵點反應特徵的重要性程度[8],如果去除某特徵後,資料集的不一致性將明顯增大,那麼就認為該特徵很重要,否則即認為不重要,該標準的優點是能夠獲得一個較小的特徵子集,但它對噪聲資料很敏感,且只適合做離散特徵。
資訊度量標準主要是利用資訊熵等量化特徵相對於分類類別的不確定性程度,以判定起包含的分類資訊的含量。資訊度量標準的優勢是它是一種無參的非線性的度量標準,且不需要預先知道樣本資料的分佈,資訊熵能很好地量化恩正相對於類別的不確定性程度
分類誤差度量基於這樣的原理:在文字分類問題中,特徵選擇的目的是使得後期的分類準確率高,因此如果採用分類誤差作為評價標準,得到的特徵子集將具有更好的效能。例如,Huang等[11]使用混合的遺傳演算法與分類器一同通獲取特徵子集,並能明顯提高最終分類模型的分類效能。Neumann等[12]則是利用支援向量機的分類效能作為特徵選擇的度量標準,
3) 評估特徵的個數:單特徵的選擇方法,多特徵的選擇方法
所謂單特徵的選擇方法指的是在評價特徵的重要程度的時候是基於特徵獨立性的原則,不考慮特徵間的相關性,而多特徵的選擇方法則是建立在特徵相關的基礎上,即某一特徵是否作為候選特徵取決於自身的重要性和對已有特徵重要性的影響。
4) 有無類別資訊:監督,半監督,無監督
對於有監督的特徵選擇,即在分類中樣本事先有類別資訊,考慮特徵與類別間的相關性進行選擇,無監督的特徵選擇則無類別資訊,根據特徵相關性進行聚合,一般來講,相關性越大的的特徵,重要性就越高。近些年來,也有學者開始研究半監督特徵選擇,由於在文字分類中,類別資訊是比較缺乏的,然而單純的無監督技術並不夠成熟,因此很多學者採用先無監督聚類,然後在此基礎上考慮類別與特徵的相關性進行選擇。
5) 與學習演算法的關係:Embedded[17,18,19],Filter,Wrapper[20,21]和混合選擇演算法
特徵選擇在機器學習中被廣泛使用和研究,根據特徵選擇與學習演算法的關係,特徵選擇分為不同的類別:
在嵌入式結構中,特徵選擇演算法本身作為組成部分嵌入到學習演算法裡。如某些邏輯公式學習演算法是通過向公式表示式中加減特徵實現的[22]。最典型的是決策樹演算法,如Quinlan 的 ID3和C4.5[17,18]以及Breiman 的CART演算法[19]等,決策樹生成的過程也就是特徵選擇的過程。
過濾式特徵選擇的評估標準獨立於學習演算法,直接由資料集求得,評估依賴於資料集本身,通常是選擇和目標函式相關度大的特徵或者特徵子集。一般認為相關度大特徵或者特徵子集會對應得到後續學習演算法較高的準確率,過濾式特徵選擇的評估方法很多,如類間距離,資訊增益,關聯度以及不一致度等。
考慮到和學習法無關的過濾式特徵評價會和後續的分類演算法產生較大的偏差,而學習演算法基於所選特徵子集的效能是更好的特徵評價標準,不同的學習演算法偏好不同的特徵子集,既然特徵選擇後的特徵子集最終將用於後續的學習演算法,那麼該學習演算法的效能就是最好的的評估標準。因此在Wrapper特徵選擇中將學習演算法的效能作為特徵選擇的評估標準。
4 優化發展歷程
特徵選擇最早從60年代起就有學者對此進行研究,發展到今天已有50多年的時間,特徵選擇的地位,作用隨著資料處理的需求的變化而不斷變化著,同時,外界的需求變化也對特徵選擇的技術不斷提出新的要求,為了適應不斷更新的各行各業的資料,特徵選擇技術也在發生著質的變化,逐漸變得強大,方便各行各業的使用。總體來講,特徵選擇演算法經歷瞭如下幾個重大的變化歷程:
4.1由基於閾值的單一的特徵選擇演算法到多種特徵選擇演算法結合尋找最優的特徵子集
基於閾值的單一的特徵選擇計算簡單,複雜度低效率高,適合做文字分類中的特徵選擇,主要有:文件頻率方法(DF)[23] , 資訊增益方法(IG) [ 23] ,互資訊方法(MI) [23] ,CHI[23] 方法,期望交叉熵[24],文字證據權[24],優勢率[24],基於詞頻覆蓋度[25],主分量分析[26] ,Focus,Relief,ReliefF的特徵選擇方法等,對於文字分類的特徵選擇的研究,比較有代表性的是Yang Yiming[27] 和Dunja Mladenic[ 27]的工作。
組合式的特徵選擇指多種特徵選擇演算法一起使用來選出最優的特徵子集。由於每一個特徵選擇的演算法具有不同的優缺點,在單獨使用的時候無法克服自身的缺陷,因而不同的演算法正好優勢互補。結合方式組要有以下幾種:
a、基於資訊理論和資訊度量的各類特徵選擇演算法的串聯結合:如Tf-idf(單純組合,基於位置的組合方式)IG-DF,TF-DF等。
b、遺傳演算法[23] 和 禁忌搜尋[24] 陳等提出了遺傳演算法和禁忌搜尋相混合的搜尋策略GATS,並在此策略基礎上提出了特徵選擇演算法FSOSGT,提高了特徵選擇的速度[28]。
c、遺傳演算法和人工神經網路[29]
謝等採用數理統計方法分析訓練前後神經網路權值的變化情況,改進權連線剪下演算法,並獲得適合具體問題的非全連線神經網路。提出基於特徵模糊化和神經網路的特徵選擇,並通過實驗證明了其有效性[29]。
d、序列搜尋策略和分類效能評價準則. 文獻[25]、[26]、[30]中用序列搜尋策略(SBS,SFS,FSFS)和分類性評價準則相結合來評價所選的特徵,也取得不錯的效果,相對於使用隨機搜尋策略,節約時間。
e、Wrapper和隨機搜尋策略。
文獻[31]提出用決策樹進行特徵選擇的Wrapper方法,用遺傳演算法尋找使得決策樹分類錯誤率最小的一組特徵子集。文獻[27]結合正態極大似然模型來進行特徵選擇和分類, [32]用遺傳演算法結合人工神經網路進行同樣嘗試。[33]採用了支援向量機SVM 作為分類器使得分類準確率能進一步提高。
f、整合學習文獻中的Filter和Wrapper結合的多種演算法[34]
張提出了一系列Filter和Wrapper結合的特徵選擇演算法,如Relief-Wrapper,主成分分析(principle component analysis),Recorre,Resbsw,Relief-GA-Wrapper等。
Filter與Wrapper方法的結合是現在的研究熱點。
4.2從基於完備決策表的特徵選擇到基於非完備決策表的特徵選擇演算法
在特徵選擇技術發展的初期,資料比較單一且資料量小,直接對預設值進行填充,然後當作無預設的資料集處理。因此特徵選擇最初發展的時候都基於完備決策表,一些學者提出了有效的約簡演算法。如Hu等給出了一種較好的啟發式函式[35],提出了基於正域的屬性約簡演算法; Wang等用資訊理論觀點和代數觀點對知識約簡進行了研究[36], 用條件熵為啟發式資訊求解決策表的約簡; Liu等提出了一個以區分矩陣為基礎的基於屬性序的完備演算法[36];Guan等在等價關係的基礎上定義了等價矩陣,通過矩陣的計算來刻畫粗糙集計算等[37],以上的演算法能夠降低完備意義下特徵選擇時間消耗, 提高效率。
對於預設值通過某種標準進行補全使得完備意義下的特徵選擇演算法能夠正常進行,但填充的值畢竟跟實際的值,或者在直接預設的情況下是有誤差的,而且如果需要對預設值進行精確預測,則要求相對較複雜的預測方法,這無疑給特徵選擇前的預處理帶來了很大的時間開銷和複雜度,因此,如何不對預設值進行處理,就現有的非完備的資訊系統提取有用的資訊特徵就顯得至關重要。經典粗糙集理論的等價關係不再適合.於是,完備資訊系統被推廣到了非完備資訊系統[38,39] .
針對非完備意義下的資訊系統或決策表的特徵選擇, 近年來一些作者也做了初步探索[ 40,41] 。Liang 等給出了非完備資訊系統中粗糙熵的定義[41], 並提出了基於粗糙熵的知識約簡演算法; Huang 等[ 42] 通過引入資訊量來刻畫屬性的重要度, 提出基於資訊量的啟發式約簡演算法;Meng 等[43] 提出了一種針對非完備決策表屬性約簡的快速演算法.
然而, 現有的基於非完備決策表的約簡演算法都不同程度地存在耗時較大的問題.Qian 和Liang 等[44,45]提出的正向近似是一種刻畫目標概念的有效方法. Qian 和Liang 等[ 46] 進一步研究了非完備意義下的正向近似,討論了非完備意義下如何通過正向近似的方法來刻畫粗糙集的粒度結構. 動態粒度下的正向近似思想,為粒度計算和粗糙集理論提供了新的研究角度, 並且在規則提取和屬性約簡中也得到了應用。
4.3從基於特徵獨立原則的特徵選擇到特徵關聯的特徵選擇演算法
基於特徵獨立原則的特徵選擇的前提是假設各特徵間無關,認為特徵集的文件識別率是特徵集中每個特徵的文件識別率的線性和,這樣使得支援向量機在演算法上得到很好應用,在特徵選擇發展的初期,都是假設特徵獨立的。但是實際中很多特徵之間相關性很大,這些特徵在類別區分能力上是非常相似的, 若全部作為候選特徵子集,就會導致大量特徵冗餘, 從而影響了分類器的效能。這種問題在某些類別的訓練樣本較少的情況下會更加突出, 因為在稀疏類別中的特徵比那些主要類別中特徵的評估值要低, 傳統的特徵選擇演算法往往會傾向於那些主要類別中的特徵關聯。
從資訊理論的角度來件,特徵選擇的目標就是尋找一個包含原始特徵集的全部或者大部分資訊的特徵子集,該特徵子集的存在可以最大程度地降低其他未選擇特徵的不確定性。根據分類中對特徵選擇的定義,是要找出與分類類別相關性最大,而彼此間相關性最小的特徵子集。基於此,學者們提出了一系列特徵選擇演算法:Weston介紹了一種基於支援向量機的特徵選擇演算法[47],依據該演算法可以選出那些分類資訊明確的特徵。邱等提出的一種特徵間的模糊相關性和x2統計量線性組合的特徵選擇演算法[48]。高等提出的基於雙詞關聯的文字特徵選擇[49]。蔣等提出的基於特徵相關性的特徵選擇[50],劉等提出一種基於條件互資訊的特徵選擇演算法[51],首先聚類特徵除去噪音,然後選出類相關度最大的特徵,去除不相關和冗餘特徵。張提出了一種基於最小聯合互資訊虧損的最優特徵選擇演算法[52]。Grandvalet 也介紹了一種可以自動計算屬性間相互關係的演算法[53]。
這類特徵選擇演算法,考慮了特徵間的相關性,有效地降低特徵子集的冗餘。在考慮特徵相關性和冗餘度的特徵選擇演算法的研究過程中,較為出名的是Markov Blanket 理論的出現,姚等給出了Markov blanket的定義以及一種基於近似Markov Blanket和動態互資訊的特徵選擇演算法[54],利用近似Markov Blanket原理準確地去除冗餘特徵,從而獲得遠小於原始特徵規模的特徵子集。
Markov blanket的出現,是特徵相關性研究的一大重要成果。基於此,崔等提出了一種基於前向選擇的近似Markov Blanket特徵選擇演算法[55],獲得近似最優的特徵子集。姚等針對大量無關和冗餘特徵的存在可能降低分類器效能的問題[56],提出一種基於近似Markov blanket和動態互資訊的特徵選擇演算法並將其應用於整合學習,進而得到一種整合特徵選擇演算法。
4.4從面向均衡資料的特徵選擇到面向非均衡資料集的特徵選擇
基於均衡類別的資料集的特徵選擇演算法預設要處理的資料集中各個類別的大小一致,或忽略類別大小對特徵選擇的演算法結果的影響。但大多數特徵選擇演算法偏愛大類別,忽略小類別,因此,基於該平衡假設的特徵選擇的演算法對於類別大小相差較大的資料集的處理則效果不佳。後期學者便提出了基於不均衡資料集的各種特徵選擇演算法,對不同大小的類別中出現的特徵賦予不同的權重,來平衡類別大小造成的誤差。提出了兩類特徵選擇演算法,一類是針對類別大小不同而提出的基於類別區分能力的特徵選擇,另一類是針對類別語義不同提出的基於論域的特徵選擇。
第一類演算法主要有;CTD(categorical descriptor term)SCIW(Strong class info words) [57]等。周等提出了類別區分詞的概念[58],應用改造的多類別優勢率和類別區分詞的方法獲得了較好的特徵選擇效果。徐等提出的基於區分類別能力的高效能特徵選擇方法[59],並對區分類別能力進行了量化。張等提出了考慮特徵在正類和負類中的分佈性質[60],結合分佈的情況衡量特徵類別相關性的指標對特徵詞進行評價,他指出選擇具有較強類別資訊的詞條是提高稀有類別分類效能的關鍵[61],分析並驗證了一般而言具有較強類別資訊的詞條不是高頻詞,甚至有傾向於稀有詞的趨勢,提出演算法DFICF。鄭將特徵選擇分為兩類[62]:只選擇正例特徵(單面方法)和正例反例同時選擇(兩面方法),提出了一種從正例、反例中合理選擇特徵的方法,得到了較好的分類效果.Forrnan則對反例進行了分析,他通過實驗發現將反例從特徵中去掉會降低分類的效能[63],所以反例在高效能分類中也是必要的.冀等提出了基於類別加權和方差統計的特徵選擇方法[64],通過加權以強化小類別的特徵。謝等將傳統F2score度量樣本特徵在兩類之間的辨別能力進行推廣,提出了改進的F2score,使其能夠度量樣本特徵在多類之間的辨別能力大小.徐提出了基於類別分佈改進的特徵選擇方法( IFSM)[65],除此還有吳提出的在可變精度理論VPRS下的特徵選擇演算法TF-CDF[66],王等提出了基於類別分佈的特徵選擇框架[67]等。這些演算法在很大程度上促進了對於非均衡類別的特徵選擇的發展。
第二類特徵選擇演算法主要有:趙等提出的基於語義和統計特徵的中文文字特徵選擇演算法[48],利用詞共現模型的思想提取特徵共現集。徐提出的使用類別特徵域的方法將每個類別中重要的特徵提取出來作為重要特徵[65],吳等提出的基於論域的無監督文字特徵選擇方法[68]等。
4.5 從有監督的特徵選擇到無監督的特徵選擇
基於有監督的特徵選擇方法廣泛應用於文字分類,能夠濾掉絕大多數文字特徵詞而不會降低文字分類的效果[69]。但是,這些成熟的有監督特徵選擇方法是需要類別資訊的,而文字聚類缺的恰恰是類別資訊。目前雖然也存在一些成熟的無監督特徵選擇方法,例如文件頻、單詞權、單詞熵、單詞貢獻度等,但是,它們僅能濾掉大約90%的噪聲詞,若再濾掉更多噪聲詞,就會大大降低文字聚類的效果[70]。因此,無監督特徵選擇仍然是目前文字聚類領域的一個研究熱點。並且隨著網路資料的增多,對於特徵選擇的要求也越來越傾向於無監督的特徵選擇。
劉提出基於k-means的無監督特徵選擇演算法[71],所得到的聚類結果已經接近理想的有監督特徵選擇所得到的聚類結果。朱提出了一種適用於無決策屬性的資訊系統的啟發式屬性約簡演算法[71]。徐等提出了一種基於互資訊的無監督的特徵選擇方法(UFS-MI)[72],綜合考慮了相關度和冗餘度的特徵選擇標準UmRMR(無監督最小冗餘最大相關)來評價特徵的重要性.
5 特徵選擇的發展方向
根據上文對於特徵選擇演算法的發展歷程來看,目前特徵選擇演算法趨向於特徵相關性,多種演算法結合,基於非完備決策表,無監督過程,並且能夠處理不均衡資料集的方向發展。然而網際網路的發展速度飛快,資料的種類和豐富度也日益增多。並且,近幾年,出現了一些新的研究方向,比如基於特徵選擇的整合學習,結合克隆選擇和免疫網路的多目標免疫優化的特徵選擇,增強式學習與特徵選擇的結合等。很難定論特徵選擇會朝著怎樣具體的方向發展,但隨著網際網路資料的增多,特徵選擇作為一種有效的降維方法,一定會得到更多的研究和擴充,其應用方向也變得越來越豐富。
6 結束語
本文概述特徵選擇的發展背景和流程,從不同角度對特徵選擇演算法進行分類,指出理論研究和實際應用中所存在的困難和一些有待解決的問題.然後主要結合特徵選擇演算法的發展歷程對各類特徵選擇演算法進行詳細分析,並且得出今後的特徵選擇演算法的發展方向和趨勢。
參考文獻
【1】Lewis P M The characterstic selection problem in recognition system IRE Transaction on Information Theory,1962.8:171-178
【2】Kittler J.Feature set search algorithms.Pattern Recognition and rough set reducts.The Third international Workshop on rough sets and Soft Computing,1994:310-317
【3】 Cover TM The best two independent measurements are not the two best.IEEE Transaction on system,Man and Cybernetics,1974,4(1):116-117
【4】Liu H ,Motoda H.feature selection for knowledge discovery and data mining[M]Boston:Kluwer Academic Publishers,1998.
【5】Liu H,Yu L.Toward integrating feature selection algorithms for classification and Clustering [J].IEEE Transactions on knowledge and data engineering,2005,17(4):491-502.
【6】Molina L C,Belanche L,Nebot A.Feature selection algorithms:a survey and experimental evalution number[R].Barcelona,Spain:universitat politecnica de Catalunya,2002.
【7】DashM.LiuH.Consistency-based search in feature selection.[J] Artifical intelligence,2003,151(1-2):155-176.
【8】Arauzo-Azofra A,Benitez J M,Castro J L.Consistency measure for feature selection [J].journal of intelligent information system,2008,30:273-292.
【9】Zhang D,Chen S,Zhou Z-H.Constraint score:A new filter method for feature selection with pairwise constraints[J].Pattern Recognition,2008,41(5):1440-1451
【10】Yu L,Liu H.Efficient feature selection via Analysis of Relevance and Redundancy[J].Journal of machine learning research,2004,5:1205-1224.
【11】Huang J,Cai Y,Xu X.A hybird genetic algorithm for feature selection wrapper based on mutual information [J].Pattern Recognition letters,2007,28:1825-1844.
【12】Neumann J,Schnorr C,Steiidl G.Combined SVM-based feature selection and classification[J].Machine learning,2005,61:129-150.
【13】Kittler J, Feature set search algorithms,in:C.H.Chen, PatternRecognition and Signal Processing, Sijthoff and Noordhoff,1978:41-60.
【14】 Pudil P, Novovicova N, Kittler J. Floating search method[J].Pattern Recognition Letters,1994(15) :1119-1125.
【15】Devijver P A,Kittler J.pattern recognition-A statistical approach[M].London:prentice Hall,192.
【16】DashM.LiuH.Consistency-based search in feature selection.[J] Artifical intelligence,2003,151(1-2):155-176.
【17】Quinlan JR,Learning efficient classification produres and theirapplication to chess end games.Machine learnng:An artificial intelligence approach,San francisco,C ,A:Morgan Kaufmann,1983,463-482.
【18】Quinlan J R,C4.5:programs for machine learning.San Francisco:Morgan kaufmann,1993.
【19】Beriman L,Friedman J H,etal.Classification and Regression Trees.Wadsforth international Group,1984.
【20】John G,Kohavi R,Pfleger K.Irrelevant features and the subset selection problem.In:Cohen W W,Hirsh H,Eds.The eleventh international conference on machine learning.San Fransisco:Morgan Kaufmann,1994,121-129.
【21】Aha D W,Bankert R L.Feature selection for case-based classification of cloud types An empirioal comparison.In:Ada D Weds.In Working Notes of the AAAI94 Workshop on case-based reasoning.Menlo Park,CA:AAAI Press,1994,106-112.
【22】Blum A L.Learning boolbean functions in an infinite attribute space.Machine learning.1992,9(4):373-386.
【23】Holland J.Adaptation in Natural and Artifiicial Systems
【24】GloverF.Feature paths for integer programming and links to artificial intelligence.
【25】 Inza I,Larranaga P,Blanco R.Filter versus wrapper gene selection approaches in DNA microarray domains[J]. Artificial Intelligence in Medicine, 2004,31(2):91-103v
【26】 Zhou Xiaobo,Wang Xiaodong,Dougherty E R.Gene selection using logistic regressions based on AIC,BIC and M DI criteria[J]. Journal of New Mathematics and Natural Computation,2005,1(1):129-145.
【27】 Tabus I,Astola J.On the use of MDI principle in gene expression prediction[J]. EURASIP Journal of Applied Signal Processing,2001,4:297-303.
【28】一種高效的面向輕量級入侵檢測系統的特徵選擇演算法。
【29】龐遺傳演算法和人工神經網路的分析和改進。
【30】 Xiong Momiao,Fang Xiang-zhong,Zhao Jin-ying.Biomarkeri dentification by feature wrappers[J].GenomeResearch,2001,11(11):1878-1887.
【31】 Hsu W H.Genetic wrappers for feature selection in decision trein duction and variable ordering in bayesian network Structure learning[J]. Information Sciences,2004,163(1/2/3):103-122.
【32】 Li I, Weinberg C R, Darden TA. Gene selection for sample
classification based on gene expression data:study of ensitivity to choice of parameters of the GA/KNN method[J].Bioinformatics,2001,17(12):l131-1142.
【33】 Shima K,Todoriki M,Suzuki A. SVM-Based feature selection of latent semantic features[J]. Pattern Recognition Letters,2004,25(9):1051-1057.
【34】Study n feature selection and ensemble learning Based on feature selection for High-Dimensional Datasets.
【35】 Hu Xiao-Hua, Cercone N.Learning inrelational databases:A rough set approach. International Journal of Computational Intelligence, 1995, 11(2): 323-338
【36】 LiuShao- Hui,ShengQiu-Jian,WuBin, ShiZhong-Zhi, HuFei.Research on efficient algorithms for Rough set methods.Chinese Journal of Computers, 2003, 26 (5): 524-529 (in Chinese)
【37】 Guan Ji-Wen, Bell David A, Guan Z. Matrix computation for informat I systems.Information Sciences,2001,131:129-156
【38】 Krysz kiewicz M. Rough set approach to incomplete information systems. Information Sciences,1998,112:39-49
【39】Slow in skir R,Vsnderprooten D.Ageneralized definition of rough approximations based on similarity. IEEE Transactions on Data and Knowledge Engineering, 2000,12(2) :
【40】Leung Yee, Wu Wei-Zhi, Zhang Wen-Xiu. Knowledge acquisition in incomplete information systems: A rough set approach. European Journal of Operational Research, 2006(68): 164- 183[ 22] Sun Hui-Qin, Zhang Xiong, Finding minimal reducts from incomplete information systems
【41】 Liang Ji-Ye, Xu Zong-Ben. The algorithm on knowledge reduction in incomplete information systems. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 2002,10(1):95-103
【42】 Huang Bing, Zhou Xian-Zhong, Zhang Rong-Rong. At tribute reduction based on information quantity under incomplete information systems. Systems Engineering-Theory and Practice, 2005,4(4):55-60(in Chinese)
【43】 Meng Zu-Qiang, Shi Zhong-Zhi. A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough set s.Information Sciences,2009,179:2774-2793
【44】Liang Ji-Ye, Qian Yu-Hua, Chu Cheng- Yuan,LiDe-Yu,Wang Jun-H ong. Rough set approximation based on dynamic granulation, Lecture Notes in Artificial Intelligence 3641,2005:701-708
【45】 Qian Yu-Hua, Liang Ji-Ye, Dang Chuang-Yin. Convers approximation and rule extraction from decision tables in rough set theory. Computers an d Mathem at ics with Applicati on s,2008, 55: 1754-1765
【46】 Qian Yu-H ua, Liang Ji-Ye. Positive approximation and ruleext racting in incomplete information systems. International Journal of Computer Science and Knowledge Engineering,2008,2(1):51-63
【47】Stewart M Yang ,Xiao bin Wu,Zhi hong Deng,etal.Modification of feature selection methods using relative term frequency。
【48】Feature selection m ethod for text based on linear comb ination
Q IU Yun..fe,i WANG Jian..kun, LI Xue, SHAO Liang..shan
【49】GAO Mao-ting,WangZheng -ou.New model for text feature selection based on twin words relationship.Computer Engineering and Applications,2007,43(10):183- 185.
【50】JIANG Sheng-yi,WANG Lian-xi.Feature selection based on feature similarity measure.Computer Engineering and Applications,2010,46(20):153-156.
【51】LIU Hai-yan, WANG Chao, NIU Jun-yu。Improved Feature Selection Algorithm
Based on Conditional Mutual Information(School of Computer Science, Fudan University, Shanghai 201203, China)
【52】Kenneth Ward Church. Patrick Hanks Words accociation norms mutual information and lexicography
【53】Guyon 1 Weston J.Barnhil S .Vapnik V. Gene Selction for cancclassfication using support vector machine.
【54】Freature Selection Algorithm -based approximate markov blanket and dynamic mutual information Yao Xu Wang,Xiao-dan,Zhang yu-xi,Quan wen.
【55】An Approximate Markov Blanket Feature Selection AlgorithmCUI Zi-Feng, XU Bao..Wen1, ZHANG Wei Feng, XU Jun Ling
【56】 Yao Xu,Wang Xiao-dan,Zhang Yu-xi,Quan, Wen(Missile Institute,Air Force Engineering University, Sanyuan 713800,China)
【57】 Yang Yiming, Pederson J O. A Comparative Study on Feature Selection in Text Categorization [ A]. Proceedings of the 14th International Conference on Machine learning[ C]. Nashville:Morgan Kaufmann,1997:412- 420.
【58】Study on Feature Selection in Chinese Text CategorizationZHOU Qian, ZHAO Ming..sheng, HU min
【59】Xu Y, Li JT, Wang B, Sun CM. A category resolve power-based feature selection method. Journal of Software,2008,19(1):82.89.
【60】ZHANG Yu-fang,WANG Yong,XIONG Zhong-yang,LIU Ming(College of Computer,Chongqing University,Chongqing 400044,China)
【61】Xu Yanl”,Li Jinta01,Wang Binl,Sun Chunmin91一,and Zhang Senl
1(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080)2(North China Electric Power University,Beijing 102206)
【62】基於同義詞詞林的文字特徵選擇方法 鄭豔紅,張東站
【63】G Forrnan.An extensive empirical study of feature selectionmetrics for text classification.Journal of Machine Learning Research,2003,3(1):1289—1305
【64】JI Jun-zhong1,WU Jin-yuan1,WU Chen-sheng2,DU Fang-hua1 1. Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology,College of Computer Science and Technology,Beijing University of Technology,Beijing 100124,China;2. Beijing Institute Science and Technology Information,Beijing 100048,China)
【65】Xu Hong-guo , WANG Su-ge( School of Mathematical Science , Shanxi University, Taiyuan 030006, China)
【66】Wu Di①② Zhang Ya-ping① Yin Fu-liang①LiMing ②①(Department of computer science and Engineering, Dalian university of technology, Dalian 116024, China)
【67】Jin g Hong-fang ,Wang Bin , Yangya-hui, Institute ofeomputing ehnolo, chinese Aeadmyo f seiencees ,Beijin g, 1 0 0-9 0
【68】基於論域劃分的無監督文字特徵選擇方法 顥東吳懷廣( 鄭州輕工業學院計算機與通訊工程學院,鄭州450002)
【69】 Gheyas I A,Smith L S. Feature subset selection in large dimensionality domains. Pattern Recognition,2010; 43(1): 5—13
【70】 朱顥東,李紅嬋,鍾勇. 新穎的無監督特徵選擇方法. 電子科技大學學報,2010; 39( 3) : 412—415
【71】 An unsupervised feature selection approach based on mutual information.Xu特徵平等:
【72】Leonardis A,Bischof H.Robust recognition using eigenimages.Computere Vision and Ima Understanding.2000,78(1):99-118.