Получение последовательностей ДНК из базы данных белковых последовательностей?

У меня есть тысячи белковых последовательностей в FASTA и их инвентарные номера. Я хочу вернуться к базе данных дробовика всего генома и найти все последовательности ДНК, которые кодируют белок, идентичный одному из моих исходных последовательностей.

Я пытался запустить tBlastn с ‹10 результатами для каждой последовательности, 1 на запрос и e-значением ниже 1e-100 или с e-значением, равным нулю, и я не получаю никаких результатов. Я хотел бы автоматизировать весь этот процесс.

Можно ли это сделать, запустив blast из командной строки и пакетного сценария?


person Andrew    schedule 05.12.2014    source источник
comment
Да, это можно сделать. Если вы хотите знать, как это сделать, вам нужно уточнить, какая у вас проблема.   -  person Vince    schedule 03.02.2015


Ответы (2)


Вы должны получить как минимум один результат: тот, который кодирует исходный белок. Остальные, если таковые имеются, были бы псевдогенами, если я слежу за вами.

В любом случае, немного программирования может помочь, проверьте Biopython. Bioperl или Bioruby должны иметь аналогичные функции. В частности, вы можете BLAST с помощью Biopython

person Hugues Fontenelle    schedule 08.12.2014

Вам может пригодиться эта ссылка:

https://www.biostars.org/p/5403/

Там задавался аналогичный вопрос, и были выложены некоторые разумные решения.

person Fatt    schedule 09.12.2014