YXF-本體論和生物學資料
一直都感覺模模糊糊,先把弄明白的寫下來吧
本體論就相當於給一個事物或者現象一個確定的命名好讓所有人都用這一個詞來描述這一事物或現象以免使別人疑惑---也就是制定術語(term)。本體論分為SO 和GO, SO 是給sequence feature命名, GO是給基因功能命名
基因本體論:
連線基因與它的一個或多個功能
分三部分:cellular component: where does the product exhibit its effect
molecular function: how does it work
biological process:ehat is the propose of the gene product
基因本體論是個有向環,一個點可以和多個點有關聯。
GO data:
It contain gene ontology definition file and a gene association file
GO assocaition file format: GAF format
Functional analysis:
ORA(Over-representation analysis0: To find representative functions of a list of genes
FCS(Functional class scoring):
Gene set enrichment:
The process of discovering the common characteristics potentially, present in ln a list of genes.
Tools: AgriGO, DAVID, Panther, goatools, ermineJ, GOrilla, ToppFunData format
目前生物學資料庫有GenBank和NCBI
DNA sequence資料庫為INSDC(International nucleotide sequence database collaboration), 包括NCBI, EMBL, DDBJ.
Protein sequence 資料庫為UniProt(Universal protein resource)
另外,PDB(Protein data bank) 是生物大分子3D結構資訊庫
Automate data access:
Sequenceing data formate: GenBank, FASTA, FASTQ
FASTA 資料格式以">" 開頭
">"之後是一串字母
可能包括一些文字
Some rules:Sequence lines should not be too long
The sequence lines should wrap at the same width
Use upper-case letters
Some data of FASTA headers include structured information.
Lower-case letters might be used to indicate repetitive regions for genome.
FASTQ format
分四部分:以"@"開頭
已有的順序
符號“+”,也可能後面接與第一行一樣的ID
衡量第二部分質量的字元並且與第二行長度相同
How to get data
Where to get data: NCBI, ENSEMBL, BioMart, UCSC table browser
FASTQ manipulation
Overview data:
seqkit stat *.gz
There are too many manipulatios in FASTA/Q, I only report what you can do with FASTA/Q file and the answer is in Chapter 7 of Biostar handbook.
How to get the GC content of every sequence in a FASTA/Q file?
How to extract a subset of sequences from a FASTA/Q file with name/ID list file?
How to find FASTA/Q sequences containing degenerate bases and locate them?
How to remove FASTA/Q records with duplicated sequences?
How to locate motif/subsequence/enzyme digest sites in FASTA/Q sequence?
How to sort a huge number of FASTA sequences by length?
How to split FASTA sequences according to information in the header?
How to search and replace within a FASTA header using character strings from a text file?
How to extract paired reads from two paired-end reads files?
How to concatenate two FASTA sequences in to one?
You can follow the answer in biostar handbook if you want to do some thing same as above
相關文章
- 生物醫學基因大資料:現狀與展望大資料
- 發現生物醫學大資料缺失的環節大資料
- 《資料分析實戰》選讀:大資料時代的總體和樣本大資料
- 機器學習和資料科學領域,推薦幾本學習書單機器學習資料科學
- C#本質論學習 ☞二C#
- C#本質論學習 ☞三C#
- C#本質論學習 ☞ 四C#
- 收藏!生物資訊學資料庫大全,全網最全收集整理!資料庫
- 掌握資料科學和機器學習數學基礎必備的7本書資料科學機器學習
- 好程式設計師大資料學習路線分享scala單列和伴生物件程式設計師大資料物件
- 資料辯論:留學值不值
- 生物資訊大資料&資料庫(NCBI、EBI、UCSC、TCGA)大資料資料庫
- 關於大資料和資料庫的討論大資料資料庫
- 《機器學習導論》和《統計機器學習》學習資料:張志華教授機器學習
- 大資料到底怎麼學:資料科學概論與大資料學習誤區大資料資料科學
- 生物製藥行業資料內外網傳輸 如何實現高效資料交換和管理?行業
- 電腦科學概論(2)資料的操控和程式的執行
- 用大資料和科學理論重新解讀人類歷史大資料
- 機器學習和資料科學領域必讀的10本免費書籍機器學習資料科學
- 電商大資料學習筆記:理論大資料筆記
- 關於資料科學的十本好書資料科學
- 《軟體開發本質論》讀書筆記筆記
- 生物力學考前補天 (╥_╥)
- SnapGene(生物分析軟體):開啟生物分析的未來之門
- 團隊動力之心理資本理論
- 資料結構基礎學習之緒論資料結構
- 2021 年最佳資料科學工具和軟體 - datamation資料科學
- SnapGene Viewer for mac分子生物學ViewMac
- [技術討論]資料許可權中的理論和實際
- 本週Github上資料科學Python有趣專案Github資料科學Python
- 13、資料,學習和建模
- 學習網站和資料學習網站
- 電腦科學概論(1)資料在計算機中的儲存和表示計算機
- 生物科技拿起生化朋克的劇本|AI的朋友(二)AI
- 資料倉儲建設-OLAP和資料立方體
- 軟體工程概論——課程匯入介面以及資料匯入資料庫軟體工程資料庫
- 【資料庫理論】 ACID和BASE的比較資料庫
- 資料蔣堂 | 資料分段討論