ALLPATHS-LGのとりあえずの動かし方
ALLPATHS-LGは要求データセットの厳しいDe novo Assemblerです。(と思っている
導入のややこしさもさることながら。(gccのバージョン上げるのに苦労した。
- もってくるもの①;Insertサイズの異なる最低2つのライブラリ
・Fragment Library (Short Library)
・Jumping Library (long Library)
Fragment LibraryはInsertサイズの短いライブラリ。大体100〜200bpくらい。
Jumping LibraryはInsertサイズの長いライブラリ。1000bp以上くらい。
この両方、最低1つずつが必要です。
Jumping Libraryのサイズ判定が怖いです。平均1500bpのものはちゃんと通りました。
Fragment4つにJumping2つとかでもちゃんと通ります。
まずin_groups.csvについて
#$ less in_groups.csv
# file_name, library_name, group_name
#/絶対パスとか相対パスとか/R?.fastq, foo, frags
#/絶対パスとか相対パスとか/R?.fastq, bar, jumps
とかいうかんじのカンマ区切りのtxtファイル。
file_nameでライブラリを指定します。ペアエンドのだと?とかをつかってR1,R2を両方呼んできましょう。liblary_nameはin_libs.csvで入力するものと揃える必要があります。ライブラリごとにそれぞれ異なる名前をつけてあげましょう。group_nameも自由につけることができます。これは名前が被っても平気です。
in_libs.csvについて
#$ less in_libs.csv
#library_name, project_name, organism_name, type, paired, frag_size, frag_stddev, insert_size, insert_stddev, read_orientation, genomic_start, genomic_end
#foo, piyo, mew, fragment, 1, 100, 10, , , inward, 0, 0
#bar, piyo, mew, jumping, 1, , , 1000, 500, outward, 0, 0
こんなかんじ。library_nameはin_groupsで入力したものと対応をとってください。ここで逆になるとあとでおいお前Insertサイズたらんぞコラとか怒られるのです。怒られました。piyoもmewも好きに入力して大丈夫そう。
typeのところにはfragmentだとかjumpingだとかを入れて短いの長いの指定して下さい。
ペアエンドのライブラリならpairdのところは1です。
関係ないところは空白にして大丈夫。
read_orientationでは、リードのペアが←~insert~→ならばoutward、→~insert~←ならばinward
ここらへんはマニュアルをみたら良いかもしれない。
これら2つのcsvファイルも準備したならば、次は動かす方に行きましょう。
- PrepareAllPathsInputs.plを動かす
準備。ややこしいので自分のやってる感じでいきます。
in_groups.csv,in_libs.csvの置いてあるところに、
mkdir -p piyo/dataとかでフォルダを先に作っておいて
#$PrepareAllPathsInputs.pl DATA_DIR=$PWD/piyo/data PLOIDY=1 IN_GROUPS_CSV=in_groups.csv IN_LIBS_CSV=in_libs.csv GENOME_SIZE=わかれば OVERWRITE=True
実行する場所にin_groups.csv,in_libs.csvがあるなら別にDATA_DIRとPLOIDYさえ指定すれば動きます。
PLOYDYは1倍体とか2倍体とかを数字で指定します。今は2倍体までしか対応していないはず。
2倍体の種でもBACクローンで増やしたものをつかったライブラリなら1倍体になりますかね。(最初2でやってて先生につっこまれました。
ほんとはもっといろいろオプションがあります。
これがうまくいったらいよいよAssembly。
- RunAllPathsLGを動かす
やっと本体までたどり着いた。
RunAllPathsLG PRE=$PWD REFERENCE_NAME=piyo DATA_SUBDIR=data RUN=run SUBDIR=poyo OVERWRITE=True
とりあえず結果から言うと、これだとAssembly結果であるfinal.assembly.fastaは$PWD/piyo/data/run/ASSEMBLIES/poyo/以下にできます。piyoやdataは"."でやることも出来るらしいのですが僕はうまく行かなかったので作って指定しました。
- まとめ
こんな過程を経て結果が出てきます。これでうまくいったらここから先はCSV書き換えてパラメタちょいちょいかえてーってするだけで次からは動くはずです。
scaffold_900とかでてきて泣きそうになったのでとりあえず書いてみた。おしまい。
1.12進化生物
乾いてきたアメリカ大地溝帯
森林に適応していたやつのなかからサバンナでも適応していたもの
グループに独特な塩基配列
何故肉を食べて美味しいのか
wikipedia:血縁淘汰
おばあちゃんなんたら?
進化の視点で人間を理解する
12.1進化生物
wikipedia:アンブレラ種ヒエラルキーの上の方の
卵の大きさと生存について
厳しい状況を共食いで乗り切る
11.24進化生物
一倍体ならば淘汰圧にかかるが二倍体ならやり過ごせる
系統推定のやり方
最節約原理
wikipedia:最節約原理←テストに出すよ
11.10進化生物
ただバラバラにして置いとくだけでは地理的隔離はおこらない
ならば何が起こったら別種になるのか?
別種で在り続けるためには
戻し交配が起こっても困る。
→生殖隔離
1,受精をするかしないか。(交配前隔離)
・シグナルの違い。(行動や鳴き声)
・花の咲く時期の違い
・体の模様の選り好み
10.27 進化生物
最節約原理
wikipedia:最節約原理イベントが少ない
wikipedia:共有形質wikipedia:派生形質