Благодаря недавним новостям пандемия Covid снова стала предметом разговоров людей. В новостях говорят, что появился новый вариант и нам нужно снова делать прививку. Причина, по которой нам необходимо пройти ревакцинацию, заключается в том, что вирус мутирует и появляется новый вариант. это говорит нам о том, что новый вариант имеет другие последовательности ДНК и РНК по сравнению со старым вариантом.

Я пишу вам эту статью сегодня, потому что считаю, что проекты более ценны по теме, которая сейчас находится в заголовках.

Во-первых, нам нужно загрузить файл .csv, в котором записаны все последовательности РНК covid19 на данный момент. Он начинается с РНК в Ухане, первой последовательности РНК под названием «RefSeq», и состоит из двух ее основных вариантов «дельта» и «омикрон».



Прежде чем начать, мне нужно рассказать вам о РНК, о том, как она работает и как она будет использоваться в нашем проекте.

Итак, РНК — это исходный код ковида. РНК находится внутри оболочки и позволяет вирусу проникнуть в клетку и затем размножиться.

Это работает так, как будто вирус ковида проникает в ваши клетки, попадает в ядро ​​клетки, размножается, а затем продолжает цикл.

РНК — это код, который позволяет одному вирусу строить другой коронавирус.

Если вы знакомы с ДНК, вы также можете вспомнить ТТГ, АСГ, ААТ, ГСТ… В этом проекте мы также проверим несоответствия РНК и ДНК.

Теперь я объясню пакеты и их назначение.

BioPyhton: По сути, Biopython состоит из набора модулей Python, предназначенных для решения различных задач, связанных с последовательностями ДНК, РНК и белков. Эти задачи включают в себя такие операции, как изменение и дополнение цепочек ДНК, обнаружение закономерностей в последовательностях белков и многое другое. Это один из наиболее важных инструментов компьютерных систем для исследователя генома.

Выравнивание: функция выравнивания текста Python оказывается полезной при отображении вывода, который может похвастаться аккуратным и организованным макетом. В некоторых случаях длина данных, предназначенных для печати, различается, что приводит к беспорядочному виду при печати. Этот метод форматирования текста основан на f-строках. Выравнивание выходной строки определяется такими символами, как «‹», «›» или «^», за которыми сразу следует желаемое измерение ширины.

В этом руководстве по проекту мы рассмотрим образцы РНК COVID, а также варианты дельта и омикрон. Мы изучим подробности о последовательностях, извлечем последовательности из базы данных NIH и впоследствии сопоставим эти последовательности, чтобы выявить точки мутации. Мы будем иметь дело с реальными последовательностями РНК в формате fasta, приобретая навыки получения последовательностей РНК из различных мировых источников. На протяжении всего процесса мы будем использовать библиотеки pandas и biopython.

Все необходимые коды и пояснения к проекту вы можете найти в поле ниже.