中文關鍵詞:
時序資料聚類,時間序列資料聚類,基因表達資料聚類,機器學習,角度特徵
中文摘要:
在對基因表達進行聚類時,預計同一聚類中基因的相關係數很高,大多數聚類的基因本體(GO)富集分析將具有重要意義。然而,現有的短期基因表達聚類演算法存在侷限性。為了解決這個問題,我們提出了一種基於角度特徵的短期基因表達聚類方法。我們的方法(稱為AngClust)使用角度特徵來指示兩個相鄰時間點基因表達水平的趨勢變化。多個時間點的角度變化反映了整體表達水平的趨勢變化。這些變化用於衡量不同基因的表達趨勢是否相似。為了從聚類結果中獲得功能顯著的聚類,我們評估了聚類中的基因數量、平均相關係數、波動及其與GO項富集的相關性。AngClust在酵母基因表達資料集上的療效優於其他兩種測量方法,即歐幾里德距離(ED)和動態時間扭曲相關性(DTW)。在人類、小鼠和酵母基因表達的時間序列上,AngClust簇富集的GO和通路項的比率高於或等於STEM和TMixClust。
該聚類演算法(軟體)適用於下列各類時序資料的聚類,該軟體有視覺化操作介面(Windows GUI),操作簡介快捷。
氣溫資料:例如每小時或每天記錄的氣溫資料。
股票價格:如每分鐘、每小時或每日記錄的股票交易價格。
銷售資料:如每月、每季度或每年的銷售額。
生物醫學訊號:如心電圖、腦電圖等,記錄生物體的生理狀態隨時間的變化。
交通流量資料:如每小時或每天記錄的交通流量資料。
天氣資料:包括溫度、溼度、風速等隨時間變化的資訊。
官網論文:
https://ieeexplore.ieee.org/document/9833353/
https://pubmed.ncbi.nlm.nih.gov/35853049/
下載論文全文pdf檔案(download full-text):
https://www.researchgate.net/publication/362119062_AngClust_Angle_Feature-Based_Clustering_for_Short_Time_Series_Gene_Expression_Profiles
或者,發郵件給作者獲取全文pdf liaiminmail@gmail.com
下載開原始碼:
https://github.com/emanlee/angclust
https://sourceforge.net/projects/angclust/
引用論文:
Aimin Li, Siqi Xiong, Junhuai Li, Saurav Mallik, Yajun Liu, Rong Fei, Hongfang Zhou, Guangming Liu. AngClust: Angle Feature-Based Clustering for Short Time Series Gene Expression Profiles. 2023. IEEE/ACM transactions on computational biology and bioinformatics / IEEE, ACM. 2023 Mar-Apr;20(2):1574-1580. doi: 10.1109/TCBB.2022.3192306. Epub 2023 Apr 3. DOI: 10.1109/TCBB.2022.3192306