ALLPATHS-LGのとりあえずの動かし方

ALLPATHS-LGは要求データセットの厳しいDe novo Assemblerです。(と思っている

導入のややこしさもさることながら。(gccのバージョン上げるのに苦労した。

 

  • もってくるもの①;Insertサイズの異なる最低2つのライブラリ

・Fragment Library (Short Library)

・Jumping Library (long Library)

 

Fragment LibraryはInsertサイズの短いライブラリ。大体100〜200bpくらい。

Jumping LibraryはInsertサイズの長いライブラリ。1000bp以上くらい。

この両方、最低1つずつが必要です。

Jumping Libraryのサイズ判定が怖いです。平均1500bpのものはちゃんと通りました。

Fragment4つにJumping2つとかでもちゃんと通ります。

 

 

  • もってくるもの②;in_groups.csv とin_libs.csv

 まずin_groups.csvについて

#$ less in_groups.csv
#       file_name, library_name, group_name
#/絶対パスとか相対パスとか/R?.fastq, foo,      frags
#/絶対パスとか相対パスとか/R?.fastq, bar,      jumps

とかいうかんじのカンマ区切りのtxtファイル。

file_nameでライブラリを指定します。ペアエンドのだと?とかをつかってR1,R2を両方呼んできましょう。liblary_nameはin_libs.csvで入力するものと揃える必要があります。ライブラリごとにそれぞれ異なる名前をつけてあげましょう。group_nameも自由につけることができます。これは名前が被っても平気です。

 

in_libs.csvについて

#$ less in_libs.csv 

#library_name, project_name, organism_name,     type, paired, frag_size, frag_stddev, insert_size, insert_stddev, read_orientation, genomic_start, genomic_end
#foo,         piyo,   mew, fragment,      1,       100,          10,            ,              ,           inward,             0,           0
#bar,         piyo,   mew,  jumping,      1,          ,            ,        1000,           500,          outward,             0,           0

こんなかんじ。library_nameはin_groupsで入力したものと対応をとってください。ここで逆になるとあとでおいお前Insertサイズたらんぞコラとか怒られるのです。怒られました。piyoもmewも好きに入力して大丈夫そう。

typeのところにはfragmentだとかjumpingだとかを入れて短いの長いの指定して下さい。

ペアエンドのライブラリならpairdのところは1です。

関係ないところは空白にして大丈夫。

read_orientationでは、リードのペアが←~insert~→ならばoutward、→~insert~←ならばinward

ここらへんはマニュアルをみたら良いかもしれない。

 

これら2つのcsvファイルも準備したならば、次は動かす方に行きましょう。

 

  • PrepareAllPathsInputs.plを動かす

  準備。ややこしいので自分のやってる感じでいきます。

in_groups.csv,in_libs.csvの置いてあるところに、

mkdir -p piyo/dataとかでフォルダを先に作っておいて

#$PrepareAllPathsInputs.pl DATA_DIR=$PWD/piyo/data PLOIDY=1 IN_GROUPS_CSV=in_groups.csv IN_LIBS_CSV=in_libs.csv GENOME_SIZE=わかれば OVERWRITE=True

実行する場所にin_groups.csv,in_libs.csvがあるなら別にDATA_DIRとPLOIDYさえ指定すれば動きます。

PLOYDYは1倍体とか2倍体とかを数字で指定します。今は2倍体までしか対応していないはず。

2倍体の種でもBACクローンで増やしたものをつかったライブラリなら1倍体になりますかね。(最初2でやってて先生につっこまれました。

ほんとはもっといろいろオプションがあります。

これがうまくいったらいよいよAssembly。

  • RunAllPathsLGを動かす

やっと本体までたどり着いた。

RunAllPathsLG  PRE=$PWD REFERENCE_NAME=piyo DATA_SUBDIR=data RUN=run SUBDIR=poyo OVERWRITE=True

とりあえず結果から言うと、これだとAssembly結果であるfinal.assembly.fastaは$PWD/piyo/data/run/ASSEMBLIES/poyo/以下にできます。piyoやdataは"."でやることも出来るらしいのですが僕はうまく行かなかったので作って指定しました。

 

  • まとめ

こんな過程を経て結果が出てきます。これでうまくいったらここから先はCSV書き換えてパラメタちょいちょいかえてーってするだけで次からは動くはずです。

scaffold_900とかでてきて泣きそうになったのでとりあえず書いてみた。おしまい。

 

11.10進化生物

ただバラバラにして置いとくだけでは地理的隔離はおこらない
ならば何が起こったら別種になるのか?

別種で在り続けるためには
戻し交配が起こっても困る。
→生殖隔離
1,受精をするかしないか。(交配前隔離)
・シグナルの違い。(行動や鳴き声)
・花の咲く時期の違い
・体の模様の選り好み

10.20進化生物

分裂中
 核小体の膜はなくなるのではなく見えなくなる

原形質は一生懸命動かしてるんだよ

ミトコンドリアが先か葉緑体が先か
ミトコンが先

中心体は複製する細胞小器官

リボソーム作るのに行ったりきたり・・・
そとのタンパク質群→中→代償サブユニットがそれぞれ成熟→核外に出る→リボソーム完成