GenomePixelizer使用總結

gaorongchao1990626發表於2013-04-29


1 神燈軟體的使用總結(GenomePixelizer)

這是一款生物分析型別的軟體。從開始到現在我使用到功能只有其中的一 個功能,也就是對染色體上的位置進行分類分析,這裡最重要的是對輸入格式 以及某些用到功能進行解釋。

1.1 執行所需要的檔案

我們要對一個物種進行分析,我們需要提供給神燈一個檔案。我這裡一Yeast 也就是酵母為例子。 在根目錄下放入一個Yeast.txt的檔案,當然名字你自己隨意。 然後裡面是我們得到什麼樣子圖的關鍵。

1. name of file containing gene coordinates: ./sheep/Yeast/GC_all_3.txt
2. name of the distance matrix file: 
3. number of chromosomes: 16
4. size of chromosomes: 20.3 80.1 31.4 152.3 56.8 26.7 106.8 52.5 43.1 72.7 65.8 105.9 91.7 77.2 106.4 94.2  
5. identity upper level: 500
6. identity lower level: 600
7. window size (pixels) X: 10000
8. window size (pixels) Y: 10000
9. html prefix: http://mips.gsf.de/cgi-bin/proj/thal/search_gene?code=
10. Title: a
11. Laboratory: b
########################################################
#####   for experienced users below this line   ########
12. W/C correction: A
13. horizontal size of gene: 10
14. vertical size of gene: 10
15. W/C coefficient: 3
16. W/C correction value: 5
17. chromosome thickness: 4
18. gene feature mode (standard [std] or extended [ext]):  std

我們從上面的檔案可以非常明顯的看到分為18條,每一點代表這不同的選擇,修改後你會得到不同的圖。 1.第一點是你畫圖需要的檔案。./表示當前目錄,也就是在軟體的根目錄下,你可以自己新建一個檔案 夾,然後把檔案放進去,只要修改上面檔案的第一行就可以了
2.這個是用來顯示兩個gene間的相互作用的,也就是在染色體的圖上將兩個相互作用的gene用直線連線 起來
3.染色體的數目,酵母的是16條

4.每條染色體的大小,你這裡可以按照染色體的實際長度,也可以把所有的染色體按照比例進行縮放。
5.這個和2是一體的,兩個相互關聯的gene之間有相似度的概念,和6相互作用確定上限和下限。

7.這個控制生成圖片的大小。這裡可以適當的設定的大些,解析度相應的就會高些。

13.我們最後生成的圖片,每一個位置用一個方塊表示,horizontal size 控制的是小正方塊的寬。

14.控制小正方形的高

15.加入我們在相同的位置,有幾個點聚集在一起。那麼這個引數控制的就是他們的距離,如果設定為1, 那麼兩個小方塊之間就會靠的非常的緊密,大部分年區域重疊在一起。如果設定的大一些,上下兩個小 方塊就會有一定的間距。如果相同點的mark比較多最好設定的大一些。

16.這個和上面兩個加起來才能控制的更好

17.染色體的粗細程度,這個看大家的喜好

1.2 輸入檔案的格式

1       1       8.075   W       red     Yeast
1       2       8.7519  C       red     Yeast
1       3       9.2614  W       red     Yeast
1       4       10.8919 C       red     Yeast
1       5       12.4218 W       red     Yeast
1       6       12.9009 C       red     Yeast
1       7       12.9009 W       red     Yeast
1       8       12.9009 C       red     Yeast

這裡的第一列是染色體的編號,第二列是所有mark的編號,後面是在染色 體上的位置,當然要和染色體一樣,進行同樣程度的縮放。然後後面是位點 在染色體的上下的位置,W表示上,C表示下。 這裡有一個特別要注意的點: 加入在染色體的同一個位置有8個點,我們必須要把他們放在一起。然後W和C 交替W,不能同時為C或者W,必須交替。假若你都用W想把所有的位點都放到 上面,那麼你只能得到4個點。

輸入的第二個檔案,也就是用來gene之間的相互連線的,格式如下:

1:  YBR160W YKL042W 0.67
2:  YBR160W YDR130C 0.98

上面的檔案第一列和第二列是兩個相互作用的基因,第三列就是我們上面說的 Identity,只有Identity的數值在我們規定的範圍內的才能夠在圖上顯示。

然後附帶一個得到上面格式的程式: 我們的輸入檔案內容如下:

1 1 13 131635 136160 133897.5
1 2 13 131635 136160 133897.5
1 3 18 123717 124719 124218
1 4 2 184396 184397 184396.5
1 5 2 198874 199811 199342.5
  
use strict;
use warnings;

my @information;
my $cout;
my $length;
my (%hash,$key1,$key2,$key3);

open(OUT,">GC_all_3.txt")||die("can not open");
open(IN,"GC_all_2.txt")||die("can not open");
while(<IN>)
{
        chomp;
        @information=split/\s+/,$_;
        $hash{$information[0]}{$information[5]}{$information[1]}="A";
}

foreach $key1 (sort {$a<=>$b} keys %hash)
{
        foreach $key2 (sort {$a<=>$b} keys $hash{$key1})
        {
                $length=$key2/10000;
                foreach $key3 (sort {$a<=>$b} keys $hash{$key1}{$key2})
                {
                        $cout++;
                        if($cout%2==0)
                        {
                                print OUT "$key1\t$cout\t$length\tC\tred\tYeast\n"; 
                        }
                        else
                        {
                                print OUT "$key1\t$cout\t$length\tW\tred\tYeast\n"; 
                        }

                }
        }
}

1.3 圖片的生成

最後的圖片檔案的生成: 圖形介面下方,MakePostScript後點選可以生成圖片,後面有框可以自定 義圖片的名稱,生成的是.ps的檔案。可以用Photoshop可以進行圖片的轉換。

1.4 總結,現在暫時使用的是這些,以後有其他的用處再進行補充。

Author: GRC <grc@grc>

Date: 2013-05-31 14:29:24 CST

HTML generated by org-mode 6.33x in emacs 23


1. name of file containing gene coordinates: ./sheep/Yeast/GC_all_3.txt
2. name of the distance matrix file: ./sheep/Yeast/result_3.txt
3. number of chromosomes: 16
4. size of chromosomes: 20.3 80.1 31.4 152.3 56.8 26.7 106.8 52.5 43.1 72.7 65.8 105.9 91.7 77.2 106.4 94.2  
5. identity upper level: 100
6. identity lower level: 50
7. window size (pixels) X: 3000
8. window size (pixels) Y: 3000
9. html prefix: http://mips.gsf.de/cgi-bin/proj/thal/search_gene?code=
10. Title: a
11. Laboratory: b
########################################################
#####   for experienced users below this line   ########
12. W/C correction: A
13. horizontal size of gene: 10
14. vertical size of gene: 10
15. W/C coefficient: 1
16. W/C correction value: 5
17. chromosome thickness: 4
18. gene feature mode (standard [std] or extended [ext]):  std