Reporte del ensamble y andamiaje del genoma de Trichoderma atroviride IMI206040 con lecturas PacBio e Illumina
- Se inició el proceso de re-secuenciación del genoma de Trichoderma atroviride IMI206040 con 12 bibliotecas PacBio.
- Se determinó la longitud y %G+C de las lecturas de cada biblioteca, observando que no todas las reacciones de secuenciación contaban con rendimientos adecuados, estimado como número de lecturas y longitud de las mismas
Biblioteca | Reads | Longitud máxima | Longitud media | Información |
---|---|---|---|---|
24D1 | 6005713 | 87962 | 1893.66 | plot |
24D2 | 1421683 | 116707 | 7015.09 | plot |
24D3 | 1645852 | 104870 | 6897.54 | plot |
30D1 | 8177858 | 83868 | 1756.11 | plot |
30D2-long | 1046360 | 107468 | 7064.06 | plot |
30D2-short | 1396560 | 62193 | 2323.17 | plot |
30D3-1 | 11020 | 117565 | 3284.33 | plot |
30D3-2 | 4087 | 72870 | 2410.4 | plot |
CR1_short | 359360 | 76353 | 4172.8 | plot |
CR2_long | 1304985 | 117056 | 6919.88 | plot |
CR2_short | 2804001 | 99115 | 3242.37 | plot |
CR3_long | 1509190 | 115974 | 6718.48 | plot |
Para el ensamble inicial se consideraron unicamente las lecturas de las bibliotecas CR1, CR2 y CR3, se empleó el programa Canu v1.8 [ref], obteniendo un ensamble que fue ordenado manualmente con base en similitud con el genoma de Trichoderma reesei QM6A [ref]. Este ensamble (referido como scf) mostró una contigüidad adecuada, logrando obtener 8 scaffolds correspondientes a los cromosomas de Trichoderma atroviride. No obstante, al mapear datos provenientes de RNAseq, se obtuvo una fracción elevada de lecturas no mapeadas que si lograban ser alineadas al genoma de referencia, específicamente a la secuencia correspondiente al contig_18.
Con base en esta información, se procedió a reensamblar el genoma de Trichoderma atroviride IMI 206040 y de pulir dichos ensambles con lecturas Illumina y PacBio.
Preparación de un set de lecturas PacBio de alta calidad para el pulido de los ensambles obtenidos
Se emplearon únicamente las lecturas provenientes de las bibliotecas 24D2, 24D3, 30D2-long, CR2_long y CR3_long, mismas que fueron concatenadas, obteniendo ~ 45 Gbp para una profundidad aproximada de 1000X.
Posteriormente las lecturas seleccionadas fueron sometidas a un proceso de corrección empleando Canu [ref].
Generación de ensambles alternativos
Una vez que se obtuvo el dataset de lecturas corregidas, se procedió a la construcción de 3 ensambles adicionales, v3 empleando wtdbg2 [ref], v3.2 empleando Canu [ref] y v3.3 empleando racon [ref]. Las estadísticas de dichos ensambles son las siguientes:
Metric | v1 | scf | v3 | v3.2 | v3.3 |
---|---|---|---|---|---|
Assembly length | 36.1437 | 36.3064 | 45.2236 | 36.3359 | 43.4588 |
Longest contig | 5.62178 | 6.6475 | 4.69221 | 5.64224 | 3.58511 |
Contig count | 29 | 23 | 482 | 24 | 322 |
Assembly n50 | 2.0079 | 5.65082 | 1.5878 | 2.135 | 1.50516 |
Contigs >1e6 bp | 15 | 8 | 12 | 14 | 16 |
Length >1e6 bp | 33.1471 | 36.1388 | 27.4887 | 33.4079 | 29.6941 |
Contigs >1e5 bp | 20 | 8 | 29 | 18 | 31 |
Length >1e5 bp | 36.061 | 36.1388 | 36.6339 | 36.2242 | 36.419 |
Contigs >1e4 bp | 22 | 19 | 363 | 24 | 320 |
Length >1e4 bp | 36.0967 | 36.2807 | 44.5593 | 36.3359 | 43.4453 |
Pulido de los ensambles generados
Los ensambles generados fueron pulidos con lecturas PacBio empleando racon [ref], y con lecturas Illumina empleando ntedit [ref].
Los ensambles obtenidos tras pulir con lecturas PacBio fueron nombrados pb-polish, mientras que los ensambles pulidos con lecturas Illumina fueron nombrados ilm-polish, adicionalmente se realizaron pulidos dobles, con lecturas PacBio e Illumina denominados pb-ilm-polish.
Evaluación de los ensambles usando lecturas Illumina de DNAseq
Para determinar el efecto de las distintas estrategias de pulido, así como la calidad propia de los nuevos ensambles obtenidos, se emplearon lecturas Illumina de DNAseq, las cuales fueron alineadas a las secuencias generadas. Posteriormente se determinó que fracción de dichas lecturas alineaba adecuadamente a las secuencias (samtools view -f3
) y que fracción de las lecturas no fue alineada (samtools view -f12
). Dichas fracciones fueron calculadas tanto para los ensambles generados como para el ensamble de referencia. Asimismo, se determinó que lecturas había en común entre los alineamientos de cada secuencia generada y los alineamientos del genoma de referencia, es decir, cuanto mayor fuera el porcentaje de lecturas adecuadamente pareadas entre el alineamiento de los nuevos ensambles y el alineamiento del genoma de referencia, menos información se estaría perdiendo para dicho ensamble. Del mismo modo, cuanto menor fuera el porcentaje de lecturas compartidas no adecuadamente pareadas, menos información se estaría perdiendo en los nuevos ensambles.
Sequence | Status | Unmapped read pairs | Shared | Unique | %Shared | %Unique | Properly mapped read pairs | Shared | Unique | %Shared | %Unique |
---|---|---|---|---|---|---|---|---|---|---|---|
Trichoderma atroviride v1 | raw | 1747356 | - | - | - | - | - | - | - | - | - |
Trichoderma atroviride scf | raw | 1887134 | 1730276 | 156858 | 99.02 | 8.31 | 14674710 | 14654290 | 20420 | 97.82 | 0.14 |
Pb-polish | 1887852 | 1730252 | 157600 | 99.02 | 8.35 | 14673524 | 14652466 | 21058 | 97.81 | 0.14 | |
Ilm-polish | 1887236 | 1730660 | 156576 | 99.04 | 8.30 | 14674120 | 14654272 | 19848 | 97.82 | 0.14 | |
Pb-ilm-polish | 1887830 | 1730424 | 157406 | 99.03 | 8.34 | 14673194 | 14652436 | 20758 | 97.81 | 0.14 | |
Trichoderma atroviride v3 | raw | 1880944 | 1729154 | 151790 | 98.96 | 8.07 | 14685178 | 14663290 | 21888 | 97.88 | 0.15 |
Pb-polish | 1877492 | 1723216 | 154276 | 98.62 | 8.22 | 14688178 | 14660288 | 27890 | 97.86 | 0.19 | |
Ilm-polish | 1882324 | 1730530 | 151794 | 99.04 | 8.06 | 14684120 | 14663406 | 20714 | 97.88 | 0.14 | |
Pb-ilm-polish | 1878088 | 1723746 | 154342 | 98.65 | 8.22 | 14687756 | 14660338 | 27418 | 97.86 | 0.19 | |
Trichoderma atroviride v3.2 | raw | 1534676 | 1534292 | 384 | 87.81 | 0.03 | 15219110 | 14978430 | 240680 | 99.98 | 1.58 |
Pb-polish | 1535208 | 1534812 | 396 | 87.84 | 0.03 | 15218650 | 14978414 | 240236 | 99.98 | 1.58 | |
Ilm-polish | 1535076 | 1534754 | 322 | 87.83 | 0.02 | 15219546 | 14979136 | 240410 | 99.99 | 1.58 | |
Pb-ilm-polish | 1535124 | 1534982 | 142 | 87.85 | 0.01 | 15219434 | 14979214 | 240220 | 99.99 | 1.58 | |
Trichoderma atroviride v3.3 | raw | 1554104 | 1535082 | 19022 | 87.85 | 1.22 | 15194030 | 14955302 | 238728 | 99.83 | 1.57 |
Pb-polish | 1554076 | 1535072 | 19004 | 87.85 | 1.22 | 15194452 | 14955874 | 238578 | 99.83 | 1.57 | |
Ilm-polish | 1553850 | 1535104 | 18746 | 87.85 | 1.21 | 15193558 | 14955598 | 237960 | 99.83 | 1.57 | |
Pb-ilm-polish | 1553740 | 1535008 | 18732 | 87.85 | 1.21 | 15194692 | 14956034 | 238658 | 99.83 | 1.57 |
Evaluación de los ensambles usando lecturas Illumina de DNAseq
Para evaluar el efecto de las rondas de pulido, se procedió a determinar el número de lecturas RNAseq (Illumina) que no lograron ser alineadas a los ensambles obtenidos pero que si podían ser alineadas a los contigs presentes en el ensamble de referencia. A continuación se muestran los resultados obtenidos:
Contig | Length | scf | v3 | v3.2 | v3.3 | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
raw | pb-polish | ilm-polish | pb-ilm-polish | raw | pb-polish | ilm-polish | pb-ilm-polish | raw | pb-polish | ilm-polish | pb-ilm-polish | raw | pb-polish | ilm-polish | pb-ilm-polish | ||
contig_1 | 4710 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
contig_2 | 3162 | 116 | 83 | 116 | 83 | 0 | 1 | 0 | 0 | 116 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
contig_3 | 9774 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 | 330 |
contig_4 | 4483 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
contig_5 | 8316 | 618 | 618 | 618 | 618 | 618 | 618 | 618 | 618 | 2996 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
contig_6 | 7936 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
contig_7 | 8555 | 42 | 42 | 42 | 42 | 42 | 42 | 42 | 42 | 208 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
contig_8 | 10219 | 1374 | 15 | 852 | 15 | 16 | 16 | 16 | 16 | 10182 | 5 | 5 | 5 | 9 | 9 | 9 | 9 |
contig_9 | 25523 | 100 | 101 | 100 | 101 | 29 | 31 | 29 | 31 | 362 | 0 | 0 | 0 | 362 | 362 | 362 | 362 |
contig_10 | 205695 | 2 | 3 | 2 | 3 | 41 | 41 | 41 | 41 | 12721 | 6 | 7 | 6 | 89 | 85 | 84 | 85 |
contig_11 | 311306 | 42 | 39 | 40 | 39 | 226 | 223 | 223 | 223 | 99862 | 224 | 225 | 224 | 7659 | 7660 | 7658 | 7659 |
contig_12 | 487615 | 40 | 38 | 38 | 38 | 447 | 375 | 375 | 375 | 130055 | 365 | 365 | 365 | 81 | 44 | 42 | 43 |
contig_13 | 911962 | 960 | 978 | 952 | 973 | 971 | 967 | 961 | 961 | 319584 | 178 | 178 | 173 | 1007 | 1057 | 954 | 961 |
contig_14 | 997338 | 239 | 245 | 239 | 240 | 102 | 117 | 100 | 100 | 269672 | 129 | 112 | 112 | 818 | 876 | 791 | 834 |
contig_15 | 1127681 | 205 | 223 | 204 | 205 | 181 | 526 | 165 | 166 | 404067 | 1015 | 996 | 992 | 237 | 165 | 155 | 148 |
contig_16 | 1160020 | 1192 | 1273 | 1189 | 1197 | 159 | 247 | 157 | 155 | 403023 | 233 | 209 | 209 | 274 | 289 | 271 | 285 |
contig_17 | 1474880 | 243 | 288 | 238 | 262 | 301 | 234 | 227 | 226 | 569309 | 396 | 308 | 316 | 1717 | 1746 | 1711 | 1724 |
contig_18 | 1417455 | 567707 | 527567 | 567700 | 526548 | 567048 | 527110 | 567042 | 526971 | 2475587 | 357415 | 357539 | 357447 | 2160 | 2226 | 1822 | 2100 |
contig_19 | 1567605 | 286 | 268 | 260 | 258 | 414 | 479 | 387 | 410 | 618119 | 2531 | 1867 | 2502 | 459 | 431 | 374 | 355 |
contig_20 | 1588798 | 1681 | 1580 | 1573 | 1573 | 1596 | 1660 | 1588 | 1592 | 538456 | 1208 | 1170 | 1196 | 1632 | 1621 | 1616 | 1615 |
contig_21 | 1650603 | 151 | 201 | 147 | 151 | 1243 | 1250 | 1238 | 1238 | 397650 | 1206 | 1171 | 1183 | 378 | 364 | 304 | 326 |
contig_22 | 1899297 | 599 | 628 | 793 | 793 | 340 | 368 | 519 | 516 | 701998 | 506 | 647 | 649 | 494 | 487 | 677 | 676 |
contig_23 | 2124193 | 404 | 295 | 391 | 284 | 1460 | 1507 | 1449 | 1453 | 504712 | 288 | 271 | 266 | 1522 | 1490 | 1481 | 1482 |
contig_24 | 2790066 | 489 | 497 | 465 | 467 | 2887 | 3001 | 2861 | 2909 | 961547 | 638 | 582 | 578 | 673 | 581 | 603 | 533 |
contig_25 | 3049622 | 613 | 760 | 545 | 593 | 3379 | 3408 | 3330 | 3326 | 1040010 | 3271 | 3240 | 3243 | 707 | 783 | 646 | 688 |
contig_26 | 4122911 | 2171 | 2155 | 2094 | 2097 | 2298 | 2375 | 2214 | 2289 | 1166844 | 6337 | 6187 | 6177 | 707 | 809 | 570 | 558 |
contig_27 | 5621775 | 5873 | 5965 | 5815 | 5894 | 1112 | 1116 | 1049 | 1054 | 1948214 | 2501 | 2252 | 2309 | 5686 | 5581 | 5384 | 5496 |
contig_28 | 2007903 | 1985 | 2057 | 1968 | 1967 | 5216 | 5313 | 5189 | 5215 | 618354 | 434 | 365 | 359 | 1881 | 1967 | 1849 | 1864 |
contig_29 | 1544261 | 2120 | 2487 | 2115 | 2144 | 2129 | 2130 | 2117 | 2117 | 717281 | 2052 | 2085 | 2089 | 2095 | 1634 | 2076 | 1617 |
Como puede apreciarse, las rondas de pulido mejoraron significativamente la calidad del ensamble, con lo que puede proceder el andamiaje de la secuencia que vaya a ser seleccionada para su análisis.
Anexos
Comandos para los ensambles obtenidos
- Ensamble scf
#PBS -q ensam
#PBS -l nodes=1:ppn=20,mem=250gb,vmem=250gb,walltime=120:00:00
#PBS -N tricho_canu_2_200_ctrl
#PBS -V
module load canu/1.6
module load minimap2/2.12
cd /LUSTRE/usuario/atriztan/PacBioTricho/pacbio/control
canu -d . -p Trichoderma_atroviride_IMI_ctrl genomeSize=35M corOutCoverage=400 corMinCoverage=2 useGrid=false -pacbio-raw CR1_short.fasta CR2_long.fasta CR2_short.fasta CR3_long.fasta
- Obtención de lecturas corregidas
#PBS -q ensam
#PBS -l nodes=1:ppn=20,mem=250gb,vmem=250gb,walltime=720:00:00
#PBS -N trichoderma_canu_cor_10_1000
#PBS -V
module load canu/1.8
module load java/1.8
module load minimap2/2.12
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/scaf/run_07
canu -correct -d . -p Trichoderma_atroviride_LANGEBIO genomeSize=35M corOutCoverage=1000 corMinCoverage=10 useGrid=false -pacbio-raw reads.fasta
- Ensamble v3
#PBS -q ensam
#PBS -l nodes=1:ppn=20,mem=250gb,vmem=250gb,walltime=120:00:00
#PBS -N trichoderma_wtdbg2_cor
#PBS -V
module load wtdbg2/2.1
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/scaf/run_07/wtdbg2_assembly
wtdbg2 --cpu 20 --input reads.fasta.gz --force --prefix Trichoderma_atroviride --kmer-fsize 0 --kmer-psize 21 --kmer-depth-max 1000 --kmer-depth-min 10 --kmer-subsampling 4 --aln-kmer-sampling 256 --dp-max-gap 4 --dp-max-var 4 --dp-penalty-gap -7 --dp-penalty-var -21 --aln-min-length 2048 --aln-min-match 200 --aln-max-var 0.2 --aln-dovetail 256 --aln-strand 3 --aln-maxhit 1000 --aln-bestn 500 --verbose --tidy-reads 2000 --node-len 1024 --node-ovl 256 --node-matched-bins 1 --node-drop 0.25 --edge-min 5 --node-min 5 --node-max 1000 --ttr-cutoff-depth 0 --ttr-cutoff-ratio 0.5 --dump-kbm Vanilla_SAGARPA_cor --bubble-step 40 --tip-step 10 --ctg-min-length 1000 --ctg-min-nodes 3 --bin-complexity-cutoff 2
wtpoa-cns -t 20 -i Trichoderma_atroviride.ctg.lay -f -o Trichoderma_atroviride.ctg.fasta -M 2 -X -5 -I -2 -D -4 -B 96 -W 200 -w 100 -A -R 16 -C 3 -F 0.5 -N 20 -v
- Ensamble v3.2
#PBS -q ensam
#PBS -l nodes=1:ppn=16,mem=720gb,vmem=720gb,walltime=72:00:00
#PBS -N trichoderma_canu_10_1000
#PBS -V
module load canu/1.8
module load java/1.8
module load minimap2/2.12
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/scaf/run_07/canu_assembly
canu -assemble -d . -p Trichoderma_atroviride_LANGEBIO genomeSize=35M corOutCoverage=1000 corMinCoverage=10 useGrid=false -pacbio-corrected reads.fasta.gz
- Ensamble v3.3 (nota, el ensamble v3.3.polish se obtiene directamente en este paso)
#PBS -q ensam
#PBS -l nodes=1:ppn=20,mem=250gb,vmem=250gb,walltime=120:00:00
#PBS -N trichoderma_minimap2_miniasm_racon_polish
#PBS -V
module load minimap2/2.12
module load miniasm/0.3
module load racon/1.3.1
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/scaf/run_07/racon_polish_assembly
minimap2 -x ava-pb -t 20 reads.fasta.gz reads.fasta.gz > minimap2_alignments.paf
miniasm -f reads.fasta.gz minimap2_alignments.paf > fragment_assembly.gfa
awk '$1 ~/S/ {print ">"$2"\n"$3}' fragment_assembly.gfa > fragment_reads.fasta
minimap2 -t 20 fragment_reads.fasta reads.fasta.gz > minimap2_fragment_assembly.paf
racon -t 20 reads.fasta.gz minimap2_fragment_assembly.paf fragment_reads.fasta > racon_contigs.fasta
minimap2 -t 20 racon_contigs.fasta reads.fasta.gz > minimap2_polish_assembly.paf
racon -t 20 reads.fasta.gz minimap2_polish_assembly.paf racon_contigs.fasta > racon_polished_contigs.fasta
- Pulido de secuencias con lecturas PacBio
#PBS -q ensam
#PBS -l nodes=1:ppn=20,mem=250gb,vmem=250gb,walltime=120:00:00
#PBS -N trichoderma_racon_polish
#PBS -V
module load minimap2/2.12
module load racon/1.3.1
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/scaf/run_07/racon_polish
for assembly in Trichoderma_atroviride_LANGEBIO_scf.fasta Trichoderma_atroviride_LANGEBIO_v3.fasta Trichoderma_atroviride_LANGEBIO_v3.2.fasta Trichoderma_atroviride_LANGEBIO_v3.3.fasta
do
base_name=$(echo $assembly | perl -pe 's/\.fasta//')
minimap2 -t 20 ${assembly} reads.fasta.gz > ${base_name}.paf
racon -t 20 reads.fasta.gz ${base_name}.paf ${assembly} > ${base_name}.polish.fasta
done
- Pulido de secuencias con lecturas Illumina
#PBS -q ensam
#PBS -l nodes=1:ppn=16,mem=240gb,vmem=240gb,walltime=120:00:00
#PBS -N trichoderma_ntedit
#PBS -V
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/scaf/run_07/illumina_polish
/home/vflores/bin/nthits -p tatro -b 36 -k 40 -t 16 --outbloom --solid R1P.fastq.gz R2P.fastq.gz
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_scf.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_scf.ipolish -z 10000
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_scf.polish.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_scf.polish.ipolish -z 10000
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_v3.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_v3.ipolish -z 10000
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_v3.polish.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_v3.polish.ipolish -z 10000
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_v3.2.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_v3.2.ipolish -z 10000
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_v3.2.polish.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_v3.2.polish.ipolish -z 10000
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_v3.3.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_v3.3.ipolish -z 10000
/home/vflores/bin/ntedit -t 16 -f Trichoderma_atroviride_LANGEBIO_v3.3.polish.fasta -r tatro_k40.bf -b Trichoderma_atroviride_LANGEBIO_v3.3.polish.ipolish -z 10000
- Alineamiento de lecturas Illumina DNAseq sobre los ensambles construidos
for file_name in $(ls | grep fai$ | perl -pe 's/\.fai//')
do
base_name=$(echo $file_name | perl -pe 's/\.fa$//;s/\.fasta$//')
bwa index $file_name
bwa mem -t 8 $file_name R1P.fastq.gz R2P.fastq.gz > ${base_name}.sam
samtools view -@ 8 -h -b -o ${base_name}_tmp.bam ${base_name}.sam
samtools sort -@ 8 -o ${base_name}.bam ${base_name}_tmp.bam
samtools index ${base_name}.bam
samtools view -f 12 -@ 8 -h -b -o ${base_name}_unmapped.bam ${base_name}.bam
samtools view -f 3 -@ 8 -h -b -o ${base_name}_properly_paired.bam ${base_name}.bam
samtools view ${base_name}_properly_paired.bam | cut -f1 | sort -V | uniq > ${base_name}_properly_paired.id_list
samtools view ${base_name}_unmapped.bam | cut -f1 | sort -V | uniq > ${base_name}_unmapped.id_list
total_reads=$(cat $base_name.id_list | wc -l | awk 'print $1*2')
proper_shared_reads=$(grep -wFf ${base_name}_properly_paired.id_list Trichoderma_atroviride_IMI_206040_properly_paired.id_list | wc -l | awk '{print $1*2}')
proper_exclusive_reads=$(echo -e "$total_reads\t$proper_shared_reads" | awk 'BEGIN{FS="\t"}{print $1-$2}')
unmapped_shared_reads=$(grep -wFf ${base_name}_unmapped.id_list Trichoderma_atroviride_IMI_206040_unmapped.id_list | wc -l | awk '{print $1*2}')
unmapped_exclusive_reads=$(echo -e "$total_reads\t$unmapped_shared_reads" | awk 'BEGIN{FS="\t"}{print $1-$2}')
echo -e "$base_name\t$unmapped_shared_reads\t$unmapped_exclusive_reads\t$proper_shared_reads\t$proper_exclusive_reads" >> mapping_summary.tsv
done
- Alineamiento de secuencias de RNAseq usando hisat2
#PBS -q default
#PBS -N trichoderma_hisat2_mappings
#PBS -l nodes=1:ppn=16,mem=32gb,vmem=32gb,walltime=24:00:00
module load hisat2/2.1.0
module load samtools/1.9
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/transcriptome
for base_name in
Trichoderma_atroviride_LANGEBIO_scf Trichoderma_atroviride_LANGEBIO_scf.polish Trichoderma_atroviride_LANGEBIO_scf.ipolish_edited Trichoderma_atroviride_LANGEBIO_scf.polish.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3 Trichoderma_atroviride_LANGEBIO_v3.polish Trichoderma_atroviride_LANGEBIO_v3.2 Trichoderma_atroviride_LANGEBIO_v3.2.polish Trichoderma_atroviride_LANGEBIO_v3.2.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.2.polish.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.3 Trichoderma_atroviride_LANGEBIO_v3.3.polish Trichoderma_atroviride_LANGEBIO_v3.3.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.3.polish.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.4 Trichoderma_atroviride_LANGEBIO_v3.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.polish.ipolish_edited
do
hisat2-build ${base_name}.fasta ${base_name}
hisat2 -p 16 -q -x ${base_name} -U CT01.fastq.gz -S ${base_name}_CT01.sam
samtools view -h -b -o ${base_name}_CT01_tmp.bam -@ 16 ${base_name}_CT01.sam
samtools sort -l 9 -@ 16 -o ${base_name}_CT01.bam ${base_name}_CT01_tmp.bam
samtools index ${base_name}_CT01.bam
done
rm -rf *.sam *_tmp.bam
- Selección de lecturas RNAseq que no alinean a los ensambles construidos
module load samtools/1.9
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/transcriptome
for base_name in
Trichoderma_atroviride_LANGEBIO_scf Trichoderma_atroviride_LANGEBIO_scf.polish Trichoderma_atroviride_LANGEBIO_scf.ipolish_edited Trichoderma_atroviride_LANGEBIO_scf.polish.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3 Trichoderma_atroviride_LANGEBIO_v3.polish Trichoderma_atroviride_LANGEBIO_v3.2 Trichoderma_atroviride_LANGEBIO_v3.2.polish Trichoderma_atroviride_LANGEBIO_v3.2.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.2.polish.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.3 Trichoderma_atroviride_LANGEBIO_v3.3.polish Trichoderma_atroviride_LANGEBIO_v3.3.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.3.polish.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.4 Trichoderma_atroviride_LANGEBIO_v3.ipolish_edited Trichoderma_atroviride_LANGEBIO_v3.polish.ipolish_edited
do
outbase_name=$(echo "$base_name" | perl -pe 's/Trichoderma_atroviride_LANGEBIO_/unmapped_/')
samtools view -b -h -o ${outbase_name}_hisat2.bam -f4 ${base_name}_CT01.bam
bamToFastq -i ${outbase_name}_hisat2.bam -fq ${outbase_name}_hisat2.fastq
gzip -9 ${outbase_name}_hisat2.fastq
done
rm -rf *.sam *_tmp.bam
- Alineamiento de lecturas RNAseq sobre el genoma de referencia usando lecturas no mapeadas a los ensambles construidos
#PBS -q default
#PBS -N trichoderma_hisat2_mappings
#PBS -l nodes=1:ppn=16,mem=32gb,vmem=32gb,walltime=24:00:00
module load hisat2/2.1.0
module load samtools/1.9
cd /home/vflores/LUSTRE/Trichoderma_atroviride_scaffolding/transcriptome
echo > base_table
for base_name in
scf scf.polish scf.ipolish_edited scf.polish.ipolish_edited v3 v3.polish v3.2 v3.2.polish v3.2.ipolish_edited v3.2.polish.ipolish_edited v3.3 v3.3.polish v3.3.ipolish_edited v3.3.polish.ipolish_edited v3.4 v3.ipolish_edited v3.polish.ipolish_edited
do
hisat2-build Trichoderma_atroviride_IMI_206040.fasta Trichoderma_atroviride_IMI_206040
hisat2 -p 16 -q -x Trichoderma_atroviride_IMI_206040 -U unmapped_${base_name}_hisat2.fastq.gz -S Trichoderma_atroviride_IMI_unmapped_${base_name}_hisat2.sam
samtools view -h -b -o Trichoderma_atroviride_IMI_unmapped_${base_name}_hisat2_tmp.bam -@ 16 Trichoderma_atroviride_IMI_unmapped_${base_name}_hisat2.sam
samtools sort -l 9 -@ 16 -o Trichoderma_atroviride_IMI_unmapped_${base_name}_hisat2.bam Trichoderma_atroviride_IMI_unmapped_${base_name}_hisat2_tmp.bam
samtools index Trichoderma_atroviride_IMI_unmapped_${base_name}_hisat2.bam
samtools idxstats Trichoderma_atroviride_IMI_unmapped_${base_name}_hisat2.bam > tmp_table
echo "$(paste base_table tmp_table)" > base_table
done
rm -rf *.sam *_tmp.bam
Datos de calidad de las secuencias Illumina con las que se realizaron las rondas de pulido
Dataset | Forward | Reverse |
---|---|---|
Full | link | link |
TRAILING:25 CROP:250 | link | link |
TRAILING:25 MINLEN:200 CROP:250 | link | link |
TRAILING:25 MINLEN:250 | link | link |