Articles

Srovnání pipeline pro volání variant s využitím referenčního genomu v láhvi

15 března, 2021 by admin

Abstrakt

Vysokokapacitní sekvenování, zejména exomů, je oblíbeným diagnostickým nástrojem, ale je obtížné určit, které nástroje jsou při analýze těchto dat nejlepší. V této studii používáme výsledky projektu NIST Genome in a Bottle jako nový zdroj pro ověření naší pipeline pro analýzu exomů. Používáme šest různých zarovnávačů a pět různých voličů variant, abychom určili, která pipeline z celkového počtu 30 funguje nejlépe na lidském exomu, který byl použit k vytvoření seznamu variant detekovaných konsorciem Genome in a Bottle. Z těchto 30 pipeline jsme zjistili, že Novoalign ve spojení s GATK UnifiedGenotyper vykazuje nejvyšší citlivost při zachování nízkého počtu falešně pozitivních SNV. Je však zřejmé, že indely jsou stále obtížně zpracovatelné pro jakoukoli pipeline, přičemž žádný z nástrojů nedosáhl průměrné citlivosti vyšší než 33 % nebo pozitivní prediktivní hodnoty (PPV) vyšší než 53 %. Nakonec bylo podle očekávání zjištěno, že srovnávače mohou hrát při detekci variant stejně zásadní roli jako samotné volače variant

1. Pozadí

V posledních několika letech došlo k mnoha pokrokům v technologiích vysokokapacitního sekvenování. Díky těmto pokrokům je nyní možné detekovat velké množství potenciálních variant způsobujících onemocnění , a v několika případech byla data sekvenování nové generace (NGS) dokonce použita pro diagnostické účely. To je částečně způsobeno vývojem sekvenačních technologií v posledních několika letech, ale také řadou vylepšení různých bioinformatických nástrojů používaných k analýze hor dat produkovaných přístroji NGS .

Při hledání mutací u pacienta je typickým pracovním postupem sekvenování jeho exomu pomocí sekvenátoru Illumina, zarovnání nezpracovaných dat s lidským referenčním genomem a následná identifikace jednonukleotidových variant (SNV) nebo krátkých inzercí a delecí (indelů), které by případně mohly způsobit nebo ovlivnit fenotyp, o který se zajímáme . Zatímco toto je poměrně jednoduché, rozhodování o nejlepších nástrojích, které se mají použít v každé fázi analytického potrubí, už tak jednoduché není. Existuje velké množství nástrojů, které se používají v různých mezikrocích, ale dva nejdůležitější kroky v celém procesu jsou zarovnání surových čtení ke genomu a následné vyhledávání variant (tj. SNV a indelů) . V této studii si klademe za cíl pomoci dnešnímu bioinformatikovi objasněním správné kombinace nástroje pro zarovnání krátkých čtení a nástroje pro volání variant pro zpracování dat exomového sekvenování produkovaných přístroji NGS.

V minulosti byla provedena řada těchto studií, ale všechny měly v té či oné podobě nedostatky. V ideálním případě je třeba mít k dispozici seznam všech známých variant obsažených ve vzorku, aby bylo možné při spuštění pipeline analytických nástrojů otestovat a s jistotou vědět, že fungují správně. V minulosti však žádný takový seznam neexistoval, takže se validace musela provádět méně úplnými metodami. V některých případech se validace prováděla generováním simulovaných dat, aby se vytvořil soubor známých pravdivě pozitivních (TP) a pravdivě negativních (TN) . Tento postup sice pohodlně poskytuje seznam všech TP a TN v souboru dat, ale špatně reprezentuje biologii. Jiné metody validace pipeline pro volání variant zahrnují použití genotypovacích polí nebo Sangerova sekvenování k získání seznamu TP a falešně pozitivních (FP) . Tyto metody mají tu výhodu, že poskytují biologicky ověřené výsledky, ale mají také tu nevýhodu, že nejsou komplexní kvůli omezenému počtu míst na genotypovacích maticích a neúměrně vysokým nákladům na Sangerovu validaci, pokud se provádí tisíckrát. A konečně, žádná z těchto studií se nezaměřila na zkoumání vlivu zarovnávače krátkých čtení na volání variant. V důsledku toho nebylo možné nezávisle posoudit vliv výkonu aligátoru na vyšší úroveň.

V této studii máme výhodu seznamu variant pro anonymní ženu z Utahu (ID subjektu: NA12878, původně sekvenovaná pro projekt 1000 Genomes ), který byl experimentálně ověřen konsorciem Genome in a Bottle (GiaB) pod vedením NIST. Tento seznam variant byl vytvořen integrací 14 různých datových sad z pěti různých sekvenátorů a umožňuje nám validovat jakýkoli seznam variant vytvořený našimi pipeline pro analýzu exomu . Novinkou této práce je ověření správné kombinace srovnávačů a voličů variant na rozsáhlém a experimentálně určeném souboru dat variant: NIST-GiaB.

K provedení naší analýzy budeme používat jednu ze sad exomových dat původně použitých k vytvoření seznamu NIST-GiaB. Vybrali jsme pouze jeden z původních exomů vytvořených technologií Illumina TruSeq, protože jsme chtěli poskytnout standardní scénář použití pro někoho, kdo chce provést analýzu NGS, a zatímco cena sekvenování celého genomu stále klesá, sekvenování exomů je stále populární a životaschopnou alternativou . Je také důležité poznamenat, že podle Bamshada et al. je v současné době očekávaný počet SNV na jeden evropsko-americký exom 20 283 ± 523 . Navzdory tomu byl celkový počet SNV nalezených v seznamu NIST-GiaB s potenciálem existence v souboru dat exomu TruSeq 34 886, což je výrazně více, než se očekávalo. To je pravděpodobně způsobeno skutečností, že ačkoli byla k vytvoření dat NIST-GiaB použita sada exomů, byla také doplněna sekvenováním celého genomu.

Nakonec jsme zvažovali velké množství aligátorů a voličů variant, ale nakonec jsme vybrali 11 nástrojů na základě rozšířenosti, popularity a relevance pro náš soubor dat (např. nástroje SNVMix, VarScan2 a MuTect nebyly použity, protože jsou určeny pro použití na vzorcích získaných z nádorů). Naše vlastní analýza zahrnuje srovnání šesti srovnávačů (Bowtie2 , BWA sampe , BWA mem , CUSHAW3 , MOSAIK a Novoalign) a pěti voličů variant (FreeBayes , GATK HaplotypeCaller, GATK UnifiedGenotyper , SAMtools mpileup a SNPSVM ). V této studii se také snažíme určit, jak velký vliv, pokud vůbec nějaký, má zarovnávač na volání variant a které zarovnávače mají nejlepší výsledky při použití normálního vzorku exomu Illumina. Pokud je nám známo, jedná se o první zprávu, která ověřuje všechny možné kombinace (celkem 30 pipelines) široké škály alignerů a variant callerů.

2. Metody

2.1. Způsoby analýzy a vyhodnocování variant

2.2. Metody

2.3. Způsoby analýzy a vyhodnocování variant Datové sady

Lidský referenční genom hg19 byl stažen z prohlížeče UCSC (http://hgdownload.soe.ucsc.edu/goldenPath/hg19/chromosomes/) a byl použit k provedení zarovnání. Lidský exom, SRR098401, byl stažen z Archivu čtení sekvencí (SRA) (http://www.ncbi.nlm.nih.gov/sra). Pro účely anotace a kalibrace byly použity dbSNP137 bez míst po verzi 129, HapMap 3.3, Human Omni 2.5 BeadChip a seznamy sad zlatých standardů indelů Mills a 1000 G (vše z ftp://ftp.broadinstitute.org/distribution/gsa/gatk_resources.tgz).

2.2 Analýza a kalibrace. Pipeline

Obrázek 1 ukazuje pracovní postup použitý v této studii, který je podobný postupu uvedenému v příručce osvědčených postupů vypracované institutem The Broad Institute . Zahrnuje řadu kroků, které mají zajistit, aby vytvořené soubory zarovnání byly co nejkvalitnější, a také několik dalších kroků, které mají zaručit správné pojmenování variant. Nejprve byla surová čtení zarovnána do hg19 a poté byly ze zarovnání odstraněny PCR duplikáty. Dále bylo provedeno zarovnání čtení kolem indelů, aby se usnadnila pozdější identifikace indelů. Posledním krokem zpracování zarovnání bylo provedení kroku rekalibrace skóre kvality báze, který pomáhá zmírnit přirozené zkreslení a nepřesnosti skóre vydávaného sekvenátory. Bohužel i přes tyto kroky byla míra zarovnání jednotlivých zarovnávačů výrazně nižší, než se očekávalo, takže k vyrovnání této skutečnosti byla použita sada nástrojů fastx k odfiltrování čtení s nízkou kvalitou (tabulka 1). Jako čtení s nízkou kvalitou byla definována ta čtení, která měla alespoň polovinu skóre kvality nižší než 30. Po zpracování zarovnání bylo provedeno volání variant a filtrování variant.


Aligner	% zarovnaných čtení (nefiltrovaných)	% zarovnaných čtení (filtrovaných)	Průměrná hloubka pokrytí

Bowtie2	89.73	98,73	47,97
BWA mem	92,91	99,85	46.89
BWA sampe	85,95	97,49	46,67
CUSHAW3	85.00	99.81	47.69
MOSAIK	85.68	96.22	45.14
Novoalign	82,21	94,20	45,62

Tabulka 1

Procentuální zarovnání pro filtrované a nefiltrované čtení. Průměrná hloubka pokrytí je pro zarovnávací soubory vytvořené s filtrovanými čteními.

Obrázek 1

Schéma použité pipeline analýzy dat. Aby bylo zajištěno vytvoření zarovnání nejvyšší kvality, jsou čtení nejprve filtrována a poté zarovnána k lidskému referenčnímu genomu hg19. Poté jsou odstraněny PCR duplikáty, čtení jsou zarovnána kolem domnělých indelů a skóre kvality bází je rekalibrováno. Nakonec jsou varianty pojmenovány a ověřeny podle seznamu variant NIST-GiaB.

Šest nástrojů použitých ke generování zarovnání bylo Bowtie2, BWA mem, BWA sampe, CUSHAW3, MOSAIK a Novoalign a pět nástrojů použitých ke generování variant bylo FreeBayes, GATK HaplotypeCaller, GATK UnifiedGenotyper, SAMtools mpileup a SNPSVM, jak je vidět v tabulce 2.


Tool	Type	Version	Reference

Bowtie2	Aligner	2.1.0
BWA sampe	Aligner	0,7.5a
BWA mem	Aligner	0.7.5a
CUSHAW3	Aligner	3.0.3
MOSAIK	Aligner	2.2.3
Novoalign	Aligner	3.02.07	N/A
FreeBayes	Genotyper	v9.9.2-19-g011561f
GATK HaplotypeCaller	Genotyper	2.7-2	N/A
GATK UnifiedGenotyper	Genotyper	2.7-2
SAMtools mpileup	Genotyper	0.1.19
SNPSVM	Genotyper	0.01

Tabulka 2

Toto je 11 různých použitých nástrojů, které tvořily 30 (šest alignerů pět variant callerů) různých pipeline. Aby byla zajištěna reprodukovatelnost, jsou uvedeny také verze softwaru.

2.3. Filtrování

Surová data byla získána ze SRA (SRR098401), rozdělena pomocí fastq-dump a filtrována pomocí sady nástrojů fastx. Konkrétně fastq-dump používal příznaky -split_files a -split_spot a fastq_quality_filter byl spuštěn s následujícími argumenty: -Q 33 -q 30 -p 50. Poté byly čtení správně spárovány pomocí vlastního skriptu.

2.4. Zarovnávání

Zarovnávače používaly výchozí argumenty s výjimkou případů, kdy byl použit argument vlákna, pokud byl k dispozici. Byly použity následující příkazy.

2.4.1. Bowtie2

(1)bowtie2 -p 10 -x $INDEX -1 raw_data/read_1_filtered.fastq -2 raw_data/read_2_filtered.fastq -S alignments/NA12878.bt2.sam

2.4.2. BWA Sampe

(1)bwa aln -t 10 genome/hg19.fa raw_data/read_1_filtered.fastq > alignments/NA12878.R1.sai(2)bwa aln -t 10 genome/hg19.fa raw_data/read_2_filtered.fastq > alignments/NA12878.R2.sai(3)bwa sampe genome/hg19.fa alignments/NA12878.R1.sai alignments/NA12878.R2.sai raw_data/read_1_filtered.fastq raw_data/read_2_filtered.fastq > alignments/NA12878.bwa-sampe.sam

2.4.3. BWA Mem

(1)bwa mem -t 10 genome/hg19.fa raw_data/read_1_filtered.fastq raw_data/read_2_filtered.fastq > alignments/NA12878.bwa-mem.sam

2.4.4. CUSHAW3

(1)cushaw3 align -r $INDEX -t 10 -o alignments/NA12878.CUSHAW3.sam -q raw_data/read_1_filtered.fastq raw_data/read_2_filtered.fastq

2.4.5. MOSAIK

(1)MosaikBuild -q raw_data/read_1_filtered.fastq -q2 raw_data/read_2_filtered.fastq -st illumina -outalignments/NA12878.MOSAIK.mkb(2)MosaikAligner -in alignments/NA12878.MOSAIK.mkb -out alignments/NA12878.MOSAIK -p 10 -ia genome/hg19.dat -j genome/hg19_15 -annpe tools/MOSAIK/src/networkFile/2.1.78.pe.ann -annse tools/MOSAIK/src/networkFile/2.1.78.se.ann

2.4.6. Novoalign

(1)novoalign -d $INDEX -f raw_data/read_1_filtered.fastq raw_data/read_2_filtered.fastq -o SAM -c 10 > alignments/NA12878.novoalign.sam

2.5. Výpočet hloubky pokrytí zarovnání

Pro zajištění správného výpočtu hloubky pokrytí byl použit modul Picard Tools CalculateHsMetrics s následujícími argumenty:(1)java -jar CalculateHsMetrics.jar I=NA12878.ALN.BQSR.bam O=ALN.O.log R=genome/hg19.fa TI=genome/truseq_exome.bed BI=genome/truseq_exome.bed VALIDATION_STRINGENCY=SILENT PER_TARGET_COVERAGE=ALN.ptc.bedDůležité je poznamenat, že soubor TruSeq exome bed musí mít předřazenou hlavičku ze souboru SAM alignment, aby tento modul fungoval. Dále musí být sloupec 6 přesunut do sloupce 4 a sloupec 5 musí být ze souboru TruSeq bed odstraněn.

2.6. Zpracování zarovnávacích souborů

Zpracování zarovnávacích souborů (soubory SAM/BAM) vyžadovalo u všech zarovnávačů následující kroky:(1)Převod SAM na BAM pomocí SAMtools view:(a)samtools view -bS alignments/NA12878.ALN.sam -o alignments/NA12878.ALN.bam(2)Třídění souborů BAM pomocí modulu Picard Tools, SortSam:(a)java -jar bin/SortSam.jar VALIDATION_STRINGENCY=SILENT I=alignments/NA12878.ALN.bam OUTPUT=alignments/NA12878.ALN.sorted.bam SORT_ORDER=souřadnice(3)Odstranění duplicit PCR pomocí modulu Picard Tools, MarkDuplicates:(a)java -jar bin/MarkDuplicates.jar VALIDATION_STRINGENCY=SILENT I=alignments/NA12878.ALN.sorted.bam O=alignments/NA12878.ALN.dups_removed.bam REMOVE_DUPLICATES=true M=alignments/metrics(4)Skupina čtení přidaná do souborů zarovnání pomocí modulu Picard Tools, AddOrReplaceReadGroups:(a)java -jar bin/AddOrReplaceReadGroups.jar VALIDATION_STRINGENCY=SILENT I=alignments/NA12878.ALN.dups_removed.bam O=alignments/NA12878.ALN.RG.bam SO=coordinate RGID=NA12878 RGLB=NA12878 RGPL=illumina RGPU=NA12878 RGSM=NA12878 CREATE_INDEX=true(5)Zarovnání kolem indelů pomocí modulů GATK RealignerTargetCreator a IndelRealigner:(a)java -XX:-DoEscapeAnalysis -jar bin/GenomeAnalysisTK.jar -T RealignerTargetCreator -R genome/hg19.fa -I alignments/NA12878.ALN.RG.bam -known genome/mills.vcf -o tmp/ALN.intervals(b)java -XX:-DoEscapeAnalysis -jar bin/GenomeAnalysisTK.jar -T IndelRealigner -R genome/hg19.fa -I alignments/NA12878.ALN.RG.bam -known genome/mills.vcf -o alignments/NA12878.ALN.indels.bam -maxReadsForRealignment 100000 -maxReadsInMemory 1000000 -targetIntervals tmp/ALN.intervals(6)Rekalibrace báze pomocí modulů GATK BaseRecalibrator a PrintReads:(a)java -XX:-DoEscapeAnalysis -jar bin/GenomeAnalysisTK.jar -T BaseRecalibrator -R genome/hg19.fa -I alignments/NA12878.ALN.indels.bam -knownSitesgenomedbsnp_137.hg19.excluding_sites_after_129.only_standard_chroms.vcf -o tmp/NA12878.ALN.grp(b)java -XX:-DoEscapeAnalysis -jar bin/GenomeAnalysisTK.jar -T PrintReads -R genome/hg19.fa -I alignments/NA12878.ALN.indels.bam -BQSR tmp/NA12878.ALN.grp -o alignments/NA12878.ALN.BQSR.bam

2.7. Volání variant

Pro každý volací program variant byly použity výchozí argumenty, pokud neobsahoval příznak „threads“ nebo „parallel“, v takovém případě byl použit i ten. Kromě toho byly indely volány odděleně od SNV, pokud to bylo možné. Konkrétně byly použity následující příkazy.

2.7.1. FreeBayes

(1)freebayes -f genome/hg19.fa -i -X -u -v vcf_files/NA12878.ALIGNER.freebayes.raw.snv.vcf alignments/NA12878.ALIGNER.BQSR.bam(2)freebayes -f genome/hg19.fa -I -X -u -v vcf_files/NA12878.ALIGNER.freebayes.raw.indel.vcf alignments/NA12878.ALIGNER.BQSR.bam

2.7.2. GATK HaplotypeCaller

(1)java -XX:-DoEscapeAnalysis -jar bin/GenomeAnalysisTK.jar -T HaplotypeCaller -R genome/hg19.fa -I alignments/NA12878.ALIGNER.BQSR.bam -dbsnp $DBSNP -o vcf_files/NA12878.ALIGNER.HC.raw.vcf -stand_call_conf 50

2.7.3. GATK UnifiedGenotyper

(1)java -XX:-DoEscapeAnalysis -jar bin/GenomeAnalysisTK.jar -T UnifiedGenotyper -R genome/hg19.fa -nt 10 -I alignments/NA12878.ALIGNER.BQSR.bam -o vcf_files/NA12878.ALIGNER.UG.raw.snv.vcf -glm SNP -D $DBSNP(2)java -XX:-DoEscapeAnalysis -jar bin/GenomeAnalysisTK.jar -T UnifiedGenotyper -R genome/hg19.fa -nt 10 -I alignments/NA12878.ALIGNER.BQSR.bam -o vcf_files/NA12878.ALIGNER.UG.raw.indel.vcf -glm INDEL -D $MILLS

2.7.4. SAMtools Mpileup

(1)samtools mpileup -uf genome/hg19.faalignments/NA12878.ALIGNER.BQSR.bam | bcftools view -bvcg – > vcf_files/NA12878.ALIGNER.mpileup.bcf && bcftools view vcf_files/NA12878.ALIGNER.mpileup.bcf > vcf_files/NA12878.ALIGNER.mpileup.raw.vcf

2.7.5. SNPSVM

(1)java -XX:ParallelGCThreads=10 -jar tools/SNPSVM/snpsvm.jar predict -R genome/hg19.fa -B alignments/NA12878.ALIGNER.BQSR.bam -M tools/SNPSVM/models/default.model -V vcf_files/NA12878.ALIGNER.SNPSVM.raw.vcfVzhledem k neexistenci požadovaných příznaků CIGAR v souboru zarovnání se SNPSVM nepodařilo vyvolat varianty pro CUSHAW3 a SAMtools mpileup nemohl ze stejného důvodu vyvolat varianty na zarovnáních MOSAIK. Také vzhledem k tomu, že SNPSVM detekuje pouze SNV, nebyly pro tento program hlášeny žádné indely.

2.8. Filtrace variant

Filtrace se lišila v závislosti na použitém programu pro volání variant. V případě programů GATK HaplotypeCaller a GATK UnifiedGenotyper byly moduly GATK, VariantRecalibrator a ApplyRecalibration, použity k filtrování SNV s použitím HapMap 3.3, Omni 2.5 SNP BeadChip a dbSNP 137 bez dat 1000 Genome jako trénovacích sad. Pro SNPSVM bylo použito skóre QUAL ≥ 4 a hodnoty DP ≥ 6. Pro FreeBayes a SAMtools bylo použito skóre QUAL ≥ 20 a hodnoty DP ≥ 6.

2.9. Porovnání variant

Pro porovnání variant byl použit USeq 8.8.1 pro porovnání SNV sdílených mezi všemi soubory dat. Pro porovnání indelů byl použit nástroj vcflib vcfintersect. Soubor TruSeq hg19 exome bed truseq_exome_targeted_regions.hg19.bed.chr, získaný 11. prosince 2013, byl použit k omezení porovnání na místa, která mohla být zachycena soupravou exome pull down použitou při sekvenování SRR098401. Tento soubor lze získat od společnosti Illumina zde: http://support.illumina.com/sequencing/sequencing_kits/truseq_exome_enrichment_kit/downloads.ilmn. Aby bylo zajištěno identické zastoupení variant mezi různými soubory volání, byl k předzpracování souborů vcf použit nástroj vcflib vcfallelicprimitives

2.10. Statistické výpočty

Pravdivý výsledek (TP). Jedná se o mutaci, která byla detekována testovanou pipeline a která existuje v seznamu NIST-GiaB.

False Positive (FP). Jedná se o mutaci, která byla zjištěna testovaným postupem, ale která neexistuje v seznamu NIST-GiaB.

Pravdivě negativní (TN). Jedná se o mutaci, která nebyla zjištěna testovaným postupem a která neexistuje v seznamu NIST-GiaB.

Falešně negativní (FN). Jedná se o mutaci, která nebyla testovanou soupravou detekována, ale která existuje v seznamu NIST-GiaB:

3. Výsledky a diskuse

3.1. Výsledky a diskuse Předfiltrování variant

Při provádění analýzy variant je jedním z mnoha úskalí, která je třeba vzít v úvahu, prostor sekvence exomu (definovaný soupravou pro zachycení exomu) a to, jak může ovlivnit výsledky analýzy. V tomto případě jsme měli k dispozici jeden exom (SRR098401), který byl získán pomocí sady Illumina TruSeq exome kit a sekvenován na přístroji HiSeq 2000. S ohledem na tuto skutečnost jsme se chtěli ujistit, že měříme schopnost bioinformatických nástrojů vykonávat svou práci, a ne to, jak dobře pracuje souprava pro zachycení exomu Illumina TruSeq. To znamená, že jsme se chtěli pokusit vyvolat pouze varianty, které by se měly vyskytovat v exonech definovaných soupravou pro stahování. Z tohoto důvodu používáme lůžkový soubor poskytnutý společností Illumina, nikoli obecný anotační lůžkový soubor, například RefSeq pro hg19. Zjistili jsme, že pro tohoto konkrétního jedince by se podle seznamu NIST-GiaB mělo v oblastech definovaných ložem souboru TruSeq nacházet celkem 34 886 SNV a 1 473 indelů.

Po odfiltrování variant, které se nenacházely v oblastech definovaných ložem souboru Illumina TruSeq exome, jsme se dostali ze stovek tisíc předpokládaných variant (údaje nejsou uvedeny) na průměrně asi 23 000 variant (SNV a indelů) na pipeline (tabulka 3). To je pro výzkumné pracovníky pro začátek důležitý krok, protože se tím výrazně zmenšuje prostor pro vyhledávání potenciálně zajímavých variant.


Aligner	Genotyper	Raw TP SNVs	Raw FP SNVs	Raw TP indels	Raw FP indels

Bowtie2	FreeBayes	23,985	73,473	806	2,482
Bowtie2	GATK HC	21,631	273	771	1,103
Bowtie2	GATK UG	25,136	2,276	418	420
Bowtie2	mpileup	21,930	1 030	734	1 414
Bowtie2	SNPSVM	17,613	47	–	–
BWA mem	FreeBayes	23,857	18,256	785	2,088
BWA mem	GATK HC	21,707	367	779	1 348
BWA mem	GATK UG	21,925	213	402	408
BWA mem	mpileup	25,081	2,129	761	1,772
BWA mem	SNPSVM	17,920	65	–	–
BWA sampe	FreeBayes	23,789	27 143	737	1 872
BWA sampe	GATK HC	21,878	263	758	1,161
BWA sampe	GATK UG	22,153	321	394	385
BWA sampe	mpileup	25,206	2,205	684	1,401
BWA sampe	SNPSVM	18,017	78	–	–
CUSHAW3	FreeBayes	23,191	53,525	624	3,310
CUSHAW3	GATK HC	19,673	14,814	751	4,727
CUSHAW3	GATK UG	19,113	13,184	360	1,005
CUSHAW3	mpileup	22,171	9,694	681	1,983
CUSHAW3	SNPSVM	–	–	–	–
MOSAIK	FreeBayes	23,373	39,203	783	3,359
MOSAIK	GATK HC	13,528	111	500	458
MOSAIK	GATK UG	17,147	76	392	284
MOSAIK	mpileup	–	–	–	–
MOSAIK	SNPSVM	14,586	8	–	–
Novoalign	FreeBayes	22,794	2,970	678	1,554
Novoalign	GATK HC	21,407	473	779	1,370
Novoalign	GATK UG	21,113	144	387	365
Novoalign	mpileup	24,512	1,861	773	1,781
Novoalign	SNPSVM	17,109	164	–	–

Tabulka 3

Statistika hrubých variant pro 30 pipelines, včetně SNV a indelů.

3.2. Surové výsledky variant ve srovnání s GiaB

Jedním z aspektů, které jsme chtěli při tomto srovnání pochopit, byl význam filtrování variant zjištěných těmito nástroji. Důvodem je to, že v ideálním případě by člověk chtěl mít co nejvyšší úroveň citlivosti, aby se mutace, které ho zajímají, neztratily v procesu filtrování. Proto je vhodné zjistit, zda je tento krok nutný a do jaké míry je nutný, protože z výsledků NIST-GiaB a přehledu Bamshad et al. je zřejmé, že citlivost může být problémem.

Jak vidíme v tabulce 3, filtrování je u některých variant callerů nutné více než u jiných, pokud jde o SNV, a u indelů je naprosto nezbytné. Ve většině případů je počet TP variant blízký nebo vyšší než námi očekávaný počet přibližně 20 000 , ale na druhou stranu je v některých případech počet FP velmi vysoký.

Je zřejmé, že v počtech generovaných jednotlivými pipeline jsou velké rozdíly. V číslech však lze najít některé společné rysy, které pravděpodobně vyplývají z algoritmického původu jednotlivých nástrojů. FreeBayes produkuje jak největší počet nefiltrovaných variant, tak nejvyšší počet FP. Je pravděpodobné, že takový výkon vidíme pouze u tohoto nástroje díky tomu, že ačkoli není jediným nástrojem pro volání variant založeným na bayesovské inferenci, je jedinečný ve své interpretaci zarovnání. To znamená, že se jedná o volající nástroj založený na haplotypech, který identifikuje varianty na základě sekvence samotných čtení namísto zarovnání, což je druhý způsob, jakým pracuje UnifiedGenotyper společnosti GATK.

Dále vidíme, že zarovnávače založené na Burrows-Wheelerovi si vedou velmi podobně: Bowtie2, BWA mem a BWA sampe dosahují podobných výsledků ve všech oblastech. Lze se domnívat, že je to pravděpodobně způsobeno tím, že všechny tyto nástroje využívají při plnění určeného úkolu podobné algoritmy. Toto pozorování je podpořeno skutečností, že MOSAIK (zarovnání s mezerami pomocí Smith-Watermanova algoritmu) a CUSHAW3 (hybridní přístup seeding) mají oba velmi odlišné základní algoritmy a následně poskytují velmi odlišné výsledky.

Tento rozdíl ve výsledcích korelujících s různými algoritmy je nejlépe vidět na výsledcích SNPSVM. Z voličů variant je to jediný, který ke generování volání SNV využívá stroje podpůrných vektorů a sestavování modelů. Zdá se, že ačkoli má nevýhodu v tom, že není tak citlivý jako ostatní metody, těží z toho, že je mimořádně přesný bez ohledu na použitý aligátor. To naznačuje, že při použití tohoto volače variant je možné zcela vynechat krok filtrování.

Co se týče indelů, zdá se, že žádný aligátor nevyniká mezi ostatními jako ten, který dobře zvládá tento typ mutací. Při pohledu na počet FP je totiž zřejmé, že právě variant caller hraje největší roli v přesnosti identifikace indelů. Navíc nejsou k dispozici údaje pro pipeline CUSHAW3 plus SNPSVM ani MOSAIK plus SAMtools mpileup, a to z důvodu, že zarovnávací soubory neobsahují potřebné řetězce CIGAR, aby mohly variant callery fungovat následně. A konečně, důvodem, proč nejsou k dispozici údaje o indelech pro SNPSVM, je skutečnost, že tento nástroj se používá výhradně pro identifikaci SNV.

3.3. Výsledky filtrování ve srovnání s GiaB

Jak je uvedeno v tabulce 4, standardními postupy filtrování se podařilo odstranit velké množství FP SNV pro každou pipeline; zdá se však, že tyto filtry jsou ve většině případů příliš agresivní pro detekci SNV, ale nejsou dostatečně přísné pro indely. To je zřejmé při pohledu na rozdíly v počtu FP uváděných v jednotlivých souborech dat. Například u Bowtie2 s Freebayesem bylo odstraněno 72 570 FP SNV (snížení o 98 %), ale pouze 1 736 FP indelů (snížení o 70 %). Je třeba také poznamenat, že použité filtry byly závislé na pipeline a většinou v rámci každé pipeline vedly k podobnému snížení SNV a indelů FP. Jedinou výjimkou je zde počet variant identifikovaných ze zarovnání CUSHAW3 ve srovnání s ostatními zarovnáními: celkově je počet TP SNV nižší, počet FP SNV je vyšší a je to jediný alignner, který po filtrování produkuje více než 1 000 FP indelů.


Aligner	Genotyper	Filtrované TP SNVs	Filtrované FP SNVs	Filtered TP indels	Filtered FP indels

Bowtie2	FreeBayes	17,504	903	481	746
Bowtie2	GATK HC	17,330	29	648	687
Bowtie2	GATK UG	19,937	49	395	338
Bowtie2	mpileup	17,049	153	402	541
Bowtie2	SNPSVM	13,983	8	–	–
BWA mem	FreeBayes	17,376	347	461	739
BWA mem	GATK HC	19,388	302	689	860
BWA mem	GATK UG	20,000	48	397	355
BWA mem	mpileup	17,070	57	403	606
BWA mem	SNPSVM	15,060	10	–	–
BWA sampe	FreeBayes	17,435	450	443	647
BWA sampe	GATK HC	19,438	214	630	725
BWA sampe	GATK UG	19,557	27	384	336
BWA sampe	mpileup	17,049	111	387	518
BWA sampe	SNPSVM	15,218	10	–
CUSHAW3	FreeBayes	16,620	7 627	362	1 294
CUSHAW3	GATK HC	16,590	2 195	665	1 551
CUSHAW3	GATK UG	17,939	2,202	357	545
CUSHAW3	mpileup	15,942	4,029	368	796
CUSHAW3	SNPSVM	–	–	–	–
MOSAIK	FreeBayes	17,177	679	458	645
MOSAIK	GATK HC	11,616	33	426	255
MOSAIK	GATK UG	16,423	42	381	224
MOSAIK	mpileup	–	–	–	–
MOSAIK	SNPSVM	4,727	3	–	–
Novoalign	FreeBayes	16,658	219	384	559
Novoalign	GATK HC	19,406	385	702	872
Novoalign	GATK UG	20,521	46	386	315
Novoalign	mpileup	16,493	62	396	579
Novoalign	SNPSVM	14,451	18	–	–

Tabulka 4

Filtrované statistiky variant pro 30 pipelines, včetně SNV a indelů.

Vzhledem k tomu, že filtrování výrazně snižuje počet variant TP, mohlo by být rozumné, s výjimkou pipeline používajících CUSHAW3 a FreeBayes, tento krok při vyhledávání vzácných variant s vysokým dopadem vynechat. Místo toho je možné věnovat více času procesu filtrování, který je založen spíše na biologii než na statistice. Například může mít větší smysl investovat čas do identifikace malého seznamu variant, které budou mít pravděpodobně vysoký dopad: mutace v místě sestřihu, indely, které způsobují posun rámce, zkrácené mutace, stop-loss mutace nebo mutace v genech, o nichž je známo, že jsou biologicky relevantní pro fenotyp, který nás zajímá.

3.4. Varianty, o nichž je známo, že jsou biologicky relevantní pro fenotyp, který nás zajímá. Průměrná TPR a citlivost

Jak je vidět v tabulce 5, pozitivní prediktivní hodnota (PPV) se u každého nástroje, s výjimkou nástroje CUSHAW3, pohybuje od 91 % do 99,9 % pro SNV, ale průměrná citlivost je velmi nízká (kolem 50 %). Tento rozdíl může být způsoben řadou důvodů, ale nejpravděpodobnějším z nich je různá hloubka pokrytí napříč exony. Vidíme, že kromě nízké citlivosti SNV je nízká i citlivost indelů (kolem 30 %); PPV pro indely je však podstatně nižší (35,86 % až 52,95 %). To může být způsobeno některým z následujících důvodů: velmi krátké indely jsou běžným NGS těžko detekovatelné , reprezentace indelů různými variant callery může způsobit, že nástroje nesprávně tvrdí, že dva indely jsou různé, nebo nástroje pro zarovnávání vytvářejí různé reprezentace stejného indelu.


Tool	Average SNV PPV	Average SNV citlivost	Průměrná indelová PPV	Průměrná indelová citlivost

Bowtie2	98.69%	49,19%	45,45%	32,69%
BWA mem	99.15%	50,96%	43,24%	33,10%
BWA sampe	99.09%	50,85%	45,31%	31,30%
CUSHAW3	80.69%	48,08%	29,50%	29,74%
MOSAIK	98.51%	35,79%	52,95%	28,63%
Novoalign	99,17%	50.18%	44,55%	31,70%
FreeBayes	90,95%	51,00%	35.86%	32,79%
GATK HaplotypeCaller	97,05%	51,03%	43,17%	31.79%
GATK UnifiedGenotyper	97,93%	50,77%	52,12%	31.57%
SAMtools mpileup	94,99%	50,76%	39,15%	31,30%
SNPSVM	99,92%	50.85%	N/A	N/A

Tabulka 5

Průměrná pozitivní prediktivní hodnota (PPV) a citlivost pro jednotlivé nástroje.

Možná nejpravděpodobnějším vysvětlením pro oba typy mutací je otázka hloubky. Stejně jako v případě každé studie analýzy variant vede zvýšení hloubky pokrytí ke zvýšení citlivosti, ale není možné zaručit dobrou hloubku pokrytí kvůli neschopnosti souprav pro zachycení exomu rovnoměrně stáhnout exony . Kromě toho žádná souprava pro zachycení exomu nepokrývá všechny exony. Bylo totiž prokázáno, že analýza variant sekvenování celého genomu s průměrnou hloubkou nižší než exom dosahuje lepších výsledků díky rovnoměrnosti uvedené hloubky. Je tedy pravděpodobné, že velký počet variant chybí vzhledem k tomu, že seznam NIST-GiaB byl vytvořen na základě kompilace dat z exomového a genomového sekvenování. Pro dosažení správné citlivosti bude nakonec nutné provést sekvenování celého genomu, což je však v současné době pro většinu laboratoří finančně nedostupné. Naštěstí tyto náklady stále klesají a brzy budeme svědky postupného přechodu od exomové analýzy k úplnější analýze celého genomu.

3.5. Analýza celého genomu. Citlivost jako funkce hloubky

Protože citlivost odráží jeden z nejdůležitějších ukazatelů výkonnosti nástroje a většina nástrojů se snaží dosáhnout citlivosti vyšší než 50 %, chtěli bychom dále prozkoumat, jak hloubka ovlivnila citlivost volání variant. Zkoumali jsme řadu různých kombinací nástrojů, abychom zjistili, jaké jsou nejlepší pipeline, variant callery a alignery. Pro obrázek 2 jsme vzali pět nejlepších kombinací variant callerů a alignerů podle jejich citlivosti a míry falešně pozitivních výsledků (FPR). To znamená, že jsme vybrali ty, které měly kromě nejvyššího počtu vyvolaných TP SNV také nejnižší počet FP SNV. Při prohlídce okamžitě vynikne, že citlivost je nižší, než se očekávalo. Všechny pipeline dosahují zhruba stejné úrovně: většinu variant identifikují v době, kdy je dosaženo hloubky přibližně 150x, což naznačuje, že tato hloubka je pravděpodobně dostatečná a že počet chybějících variant je pravděpodobně způsoben tím, že některé exony mají nižší než průměrné pokrytí. Všimněte si, že čtyři z pěti nejvýkonnějších pipeline mají jako volič variant nástroj GATK UnifiedGenotyper, což ukazuje jeho lepší výkonnost bez ohledu na použitý aligátor, jak ukazuje obrázek 3b).

Obrázek 2

Citlivost v závislosti na hloubce pro pět nejvýkonnějších pipeline. Je zde zobrazeno pět nejlepších pipeline s hloubkou každého SNV vynesenou v závislosti na citlivosti.

(a)

(b)

(a)

(b)

Obrázek 3

Citlivost v závislosti na hloubce pro špičkový srovnávač a špičkový volič variant. (a) Výsledky pro hloubku každého SNV vynesené v závislosti na citlivosti pro top aligner, BWA mem, spárovaný s každým variant callerem. (b) Výsledky pro hloubku každého SNV vynesené v závislosti na citlivosti pro nejlepší variant caller, GATK UnifiedGenotyper, spárovaný s každým aligátorem.

Kromě zkoumání pěti nejlepších pipeline jsme zjistili, že by bylo užitečné provést stejnou analýzu pro nejlepší aligátor spojený s každým variant callerem (obrázek 3(a)) a také pro nejlepší variant caller spojený s každým aligátorem (obrázek 3(b)). Stejně jako u pipeline byl nejlepší aligner identifikován jako ten, který produkoval nejvyšší počet TP SNV a nejnižší počet FP SNV – v tomto případě BWA mem. Přestože máme k dispozici nejlepší zarovnání, stále vidíme poměrně velké rozdíly mezi volači variant, což lze pravděpodobně přičíst rozdílným algoritmům, které používají (obrázek 3(a)). V případě nejvýkonnějšího volače variant, GATK UnifiedGenotyper, se však zdá, že mezi čtyřmi nejlepšími zarovnávači jsou menší rozdíly, což naznačuje, že si ve většině situací vede poměrně dobře, přičemž výjimku tvoří CUSAHW3 a MOSAIK.

3.6. Sdílené varianty mezi nejlepšími pipeline

Nakonec jsme chtěli zjistit, jak jedinečné jsou sady volání variant mezi jednotlivými pipeline. Za tímto účelem jsme se opět zaměřili na pět nejlepších pipeline pro volání variant: Bowtie2 plus UnifiedGenotyper, BWA mem plus UnifiedGenotyper, BWA sampe plus HaplotypeCaller, BWA sampe plus UnifiedGenotyper a Novoalign plus UnifiedGenotyper. Jak je vidět na obrázku 4, existuje velké množství překryvů mezi pěti různými dotyčnými pipeline, přičemž 15 489 SNV (70 %) je společných z celkového počtu 22 324 odlišných variant. Lze však také tvrdit, že je to z velké části způsobeno tím, že čtyři z pěti pipeline používají jako volací program variant UnifiedGenotyper. Tuto domněnku potvrzuje skutečnost, že největší počet variant jedinečných pro jednu pipeline, 367, patří kombinaci BWA sampe plus HaplotypeCaller. Stojí také za povšimnutí, že druhý nejvyšší počet unikátních SNV patří rovněž aligátoru BWA sampe, takže je možné, že vysoký počet unikátních SNV lze lépe připsat aligátoru než variant calleru.

Obrázek 4

Průsečík SNV identifikovaných pěti nejlepšími pipeline.

4. Závěry

Zjistili jsme, že z třiceti různých testovaných pipeline Novoalign plus GATK UnifiedGenotyper vykazuje nejvyšší citlivost při zachování nízkého počtu FP pro SNV. Ze srovnávačů si trvale nejlépe vedl BWA mem, ale výsledky se přesto značně lišily v závislosti na použitém variant calleru. Z toho samozřejmě vyplývá, že nejlepší variant caller, GATK UnifiedGenotyper, většinou poskytoval podobné výsledky bez ohledu na použitý aligner. Je však snadno patrné, že indely jsou pro jakoukoli pipeline stále obtížně zpracovatelné, přičemž žádná z pipeline nedosáhla průměrné citlivosti vyšší než 33 % nebo PPV vyšší než 53 %. Kromě nízké celkové výkonnosti, kterou pozorujeme při detekci indelů, je citlivost, bez ohledu na typ mutace, problémem pro každou pipeline popsanou v tomto článku. Očekávaný počet SNV pro exom NA12878 je 34 886, ale i při použití spojení všech variant identifikovaných pěti nejlepšími pipeline byl největší počet identifikovaných variant velmi nízký (22 324). Zdá se, že i když je analýza exomu stále velmi užitečná, má svá omezení, a to i pokud jde o něco tak zdánlivě jednoduchého, jako je detekce SNV.

Zveřejnění

Adam Cornish je postgraduální student v laboratoři Chittibabu Guda se vzděláním v oblasti informatiky a genomiky. Chittibabu Guda (docent) má interdisciplinární vzdělání v oblasti molekulární a výpočetní biologie. Od roku 2001 publikoval řadu výpočetních metod s různými aplikacemi v biomedicínském výzkumu.

Konflikt zájmů

Autoři si nejsou vědomi žádných konkurenčních zájmů.

Přínos autorů

Adam Cornish navrhl studii, provedl všechny analýzy, vytvořil obrázky a napsal článek. Chittibabu Guda poskytl zásadní zpětnou vazbu ohledně vylepšení článku a vstupy k samotným analýzám a článek důkladně upravil. Všichni autoři si přečetli a schválili konečnou verzi článku.

Poděkování

Tato práce byla podpořena rozvojovými fondy pro Chittibabu Gudu z University of Nebraska Medical Center (UNMC). Autoři by rádi poděkovali tvůrcům programu Novoalign za poskytnutí zkušební verze softwaru a Bioinformatics and Systems Biology Core facility při UNMC za infrastrukturní podporu umožňující tento výzkum.