Пошаговое руководство по использованию QUAST для оценки и сравнения качества сборки генома.

Алгоритмы сборки, которые были разработаны до сих пор, предназначены для обеспечения лучших сборок, оцениваемых по различным критериям. Следовательно, в зависимости от конкретного сценария процесс сборки может дать лучшие результаты, если мы будем использовать наиболее подходящий ассемблер. Даже если смежные геномы не могут быть получены, сегменты из эталонных геномов могут быть получены с использованием существующих методов сборки. Следовательно, потребность в оценке качества сборки существует. Эти оценки помогают исследователям выбирать разные ассемблеры для разных сценариев.

Как мы можем узнать, правильны ли сборки, которые мы получаем при чтении с помощью доступных в настоящее время ассемблеров? В этой статье мы увидим, как определять качество сборок с помощью QUAST, который является одним из самых известных инструментов оценки, доступных для сборок генома. Давайте начнем.

Что такое QUAST?

QUAST означает инструмент оценки качества. QUAST может оценивать сборки с использованием эталонных геномов, а также без эталонных геномов. QUAST создает подробные отчеты, таблицы и графики, которые показывают различные аспекты сборок.

Скачать QUAST

Вы можете зайти на официальный сайт QUAST и нажать кнопку СКАЧАТЬ.



Вы будете перенаправлены на страницу загрузки SOURCEFORGE, откуда сможете загрузить последнюю версию (quast-5.0.2, когда я писал эту статью) QUAST. Предварительно скомпилированные двоичные файлы будут загружены, и вы сможете запустить их сразу после распаковки.

tar -xf quast-5.0.2.tar.gz
cd quast-5.0.2
quast.py

Вы можете увидеть следующее после выполнения quast.py или python quast.py.

QUAST: Quality Assessment Tool for Genome Assemblies
Version: 5.0.2
Usage: python quast.py [options] <files_with_contigs>
Options:
-o  --output-dir  <dirname>       Directory to store all result files [default: quast_results/results_<datetime>]
-r                <filename>      Reference genome file
-g  --features [type:]<filename>  File with genomic feature coordinates in the reference (GFF, BED, NCBI or TXT)
                                  Optional 'type' can be specified for extracting only a specific feature type from GFF
-m  --min-contig  <int>           Lower threshold for contig length [default: 500]
-t  --threads     <int>           Maximum number of threads [default: 25% of CPUs]
These are basic options. To see the full list, use --help
Online QUAST manual is available at http://quast.sf.net/manual

Убедившись, что QUAST работает правильно, мы можем приступить к оценке некоторых сборок.

Получение образца сборки

Мы будем использовать пример набора данных, используемый в ассемблере Flye. Набор данных в качестве примера состоит из считываний файла E. coli (Escherichia coli str. K-12 subr. MG1655 с инвентарным номером NCBI CP009685). Чтения состоят из чтений PacBio.

Вы можете загрузить набор данных с чтениями, используя следующую команду.

wget https://zenodo.org/record/1172816/files/E.coli_PacBio_40x.fasta

Давайте соберем этот набор данных с помощью ассемблера Flye.

flye --pacbio-raw E.coli_PacBio_40x.fasta --out-dir my_assembly --threads 8

Теперь у нас есть пример сборки. Контиги окончательной сборки можно найти в файле assembly.fasta. Посмотрим, насколько качественная сборка.

Использование QUAST

Вы можете запустить QUAST, предоставив файл contigs, содержащий окончательную сборку и эталонный геном.

quast.py my_assembly/assembly.fasta -r ref.fasta -o quastResult

Теперь вы можете просмотреть окончательный отчет из файла report.html в выходной папке.

Вы также можете сравнить несколько сборок (assemly1.fasta и assembly2.fasta), как показано. Вы также можете указать метки для каждой сборки.

quast.py assemly1.fasta assembly2.fasta -l label1,label2 -r ref.fasta -o quastResult

Вы можете отметить следующие общие меры оценки, которые используются для оценки качества геномов.

  • Фракция генома
  • Наибольшее выравнивание
  • NGA50
  • LGA50
  • Количество неправильных сборок
  • Количество контигов

QUAST предоставляет примерные объяснения для каждого из этих показателей. Вы можете навести курсор на каждую меру, и появится всплывающее сообщение с объяснением.

Вы также можете оценить свою сборку, не предоставляя никаких эталонных геномов.

quast.py my_assembly/assembly.fasta -o quastResult

Ваш результат будет содержать подробную статистику без каких-либо ссылок, таких как,

  • Количество контигов
  • Самый большой контиг
  • Общая длина
  • N50
  • L50

Браузер Icarus Contig

Icarus - это инструмент, доступный в QUAST, который может визуализировать сборки для аналитических целей.

Вы можете увидеть, насколько хорошо ваша сборка соответствует эталонному геному.

MetaQUAST: QUAST для метагеномических сборок

QUAST предоставляет версию под названием MetaQUAST, которая позволяет нам оценивать сборки метагеномики. Вы можете предоставить несколько сборок и сравнить их одновременно. Более того, вы также можете предоставить несколько эталонных геномов.

Вы можете запустить MetaQUAST следующим образом.

metaquast.py meta.contigs1.fasta meta.contigs2.fasta -l label1,label2 -R References/ -t 8 -o metaquastResult

Как и в случае с QUAST, вы можете предоставить метки для каждой сборки, чтобы они отображались в окончательном отчете. Более того, вы можете предоставить единую папку, содержащую все эталонные геномы для оценки.

Последние мысли

Надеюсь, вы нашли эту статью полезной и информативной в качестве отправной точки на пути к использованию инструментов оценки качества для сборки генома. Не стесняйтесь использовать эти инструменты для своих проектов и исследовательской работы, поскольку они находятся в свободном доступе.

Ура, и оставайтесь в безопасности!

Вы можете прочитать мои предыдущие статьи по биоинформатике и анализу ДНК.





Введение в биоинформатику для чайников
Слово« биоинформатика
претерпевает значительные изменения в современном мире науки. Слово, кажется, состоит из двух… todatascience.com »