Является ли биоинформатик специалистом по данным в области биологии?

В наши дни биологи и медицинские научные круги проявляют большой интерес к науке о данных. С уменьшением затрат на секвенирование размер наборов данных в биологических исследованиях и глубина секвенирования для каждого образца увеличились, и, естественно, как и в любой другой области, имеющей доступ к большим наборам данных, людей интересует, что может предложить «наука о данных».

Как специалист в области биоинформатики и интересующийся машинным обучением и наукой о данных, я всегда задавался вопросом, как перемещаться между наукой о данных и биоинформатикой.

Является ли биоинформатик специалистом по данным в области биологии?

Наука о данных vs биоинформатика: методологии и навыки

Что такое биоинформатика?

Биоинформатика - это применение методов информатики для получения, хранения и интерпретации больших объемов биологических данных.

Методология биоинформатики

Чтобы работать в этих полях, вам необходимо уметь обрабатывать крупномасштабные необработанные данные (обычно последовательность или некоторую форму данных omics), проверять качество и преобразовывать обработанные данные. Затем вам нужно будет применить модели машинного обучения или статистические модели в зависимости от вашей проблемы. Скорее всего, вы сделаете некоторое уменьшение размеров и кластеризацию с последующей визуализацией. Возможно, вам придется повторить все эти шаги или использовать разные подходы в зависимости от первоначального результата вашего анализа. Вы будете писать отчеты и делать презентации, чтобы передать свою основанную на данных историю. Кроме того, им необходимо адаптироваться к постоянно меняющимся технологиям генерации данных, форматам файлов и новым статистическим подходам и подходам к машинному обучению.

навыки биоинформатики

  • По крайней мере, один или два языка программирования, обычно Python, Perl или R.
  • Unix Shell, многие наборы инструментов основаны на командах bash.
  • Ознакомьтесь со многими инструментами, доступными в конвейере NGS, включая выравнивание, сборку и вызов вариантов.
  • Ознакомьтесь со многими доступными базами данных. Они могут включать варианты, отношения генотип-фенотип, отношения фенотип-лекарство и т. Д.

Что такое наука о данных?

Наука о данных - это область исследования, которая объединяет знания в определенной области, способности к программированию, а также информацию об арифметике и измерениях, чтобы удалить значительный опыт из данных. Цель специалиста по данным будет во многом зависеть от проблемы, которую он изучает.

Методология Data Science

Есть множество мест, где человек может войти в конвейер науки о данных. Если они собирают данные, их, вероятно, называют «инженером данных», и они собираются извлекать данные из различных источников, очищать и обрабатывать их и сохранять в базе данных.

Навыки науки о данных

Согласно udacity, важными навыками специалиста по данным являются:

  • Программирование
  • Машинное обучение
  • Статистика
  • Обработка данных: обработка, форматирование и преобразование данных
  • Визуализация данных и коммуникация
  • Интуиция данных (это немного менее ясно, я думаю, они имеют в виду устранение неполадок, связанных с анализом данных, знание того, что проверять и тестировать, когда что-то идет неожиданно.)

Обсуждение

Естественно, биоинформатик собирает данные в рамках своей работы и анализирует с помощью различных статистических методов и сложного математического моделирования для целей прогнозирования, люди обычно называют это работой специалиста по данным.

На мой взгляд, биоинформатика фокусируется на геномах и белках как последовательностях. Материал биоинформатики - это прежде всего струны. Строки - это тоже данные. Тем не менее, в других областях он сильно отличается от науки о данных.

Если вы удалите специфические для предметной области требования из набора навыков биоинформатики, у вас останется большая часть набора навыков в области науки о данных и некоторые другие. Людям, которые перейдут от биоинформатики к науке о данных, скорее всего, потребуется адаптироваться к организации и среде распространения данных своего работодателя.

Вывод

Это мое личное исследование, если у вас есть какие-либо комментарии, пожалуйста, свяжитесь со мной.

Добро пожаловать на мою среднюю страницу

Github, LinkedIn, Захра Эльхамрауи, Upwork