Является ли биоинформатик специалистом по данным в области биологии?
В наши дни биологи и медицинские научные круги проявляют большой интерес к науке о данных. С уменьшением затрат на секвенирование размер наборов данных в биологических исследованиях и глубина секвенирования для каждого образца увеличились, и, естественно, как и в любой другой области, имеющей доступ к большим наборам данных, людей интересует, что может предложить «наука о данных».
Как специалист в области биоинформатики и интересующийся машинным обучением и наукой о данных, я всегда задавался вопросом, как перемещаться между наукой о данных и биоинформатикой.
Является ли биоинформатик специалистом по данным в области биологии?
Наука о данных vs биоинформатика: методологии и навыки
Что такое биоинформатика?
Биоинформатика - это применение методов информатики для получения, хранения и интерпретации больших объемов биологических данных.
Методология биоинформатики
Чтобы работать в этих полях, вам необходимо уметь обрабатывать крупномасштабные необработанные данные (обычно последовательность или некоторую форму данных omics), проверять качество и преобразовывать обработанные данные. Затем вам нужно будет применить модели машинного обучения или статистические модели в зависимости от вашей проблемы. Скорее всего, вы сделаете некоторое уменьшение размеров и кластеризацию с последующей визуализацией. Возможно, вам придется повторить все эти шаги или использовать разные подходы в зависимости от первоначального результата вашего анализа. Вы будете писать отчеты и делать презентации, чтобы передать свою основанную на данных историю. Кроме того, им необходимо адаптироваться к постоянно меняющимся технологиям генерации данных, форматам файлов и новым статистическим подходам и подходам к машинному обучению.
навыки биоинформатики
- По крайней мере, один или два языка программирования, обычно Python, Perl или R.
- Unix Shell, многие наборы инструментов основаны на командах bash.
- Ознакомьтесь со многими инструментами, доступными в конвейере NGS, включая выравнивание, сборку и вызов вариантов.
- Ознакомьтесь со многими доступными базами данных. Они могут включать варианты, отношения генотип-фенотип, отношения фенотип-лекарство и т. Д.
Что такое наука о данных?
Наука о данных - это область исследования, которая объединяет знания в определенной области, способности к программированию, а также информацию об арифметике и измерениях, чтобы удалить значительный опыт из данных. Цель специалиста по данным будет во многом зависеть от проблемы, которую он изучает.
Методология Data Science
Есть множество мест, где человек может войти в конвейер науки о данных. Если они собирают данные, их, вероятно, называют «инженером данных», и они собираются извлекать данные из различных источников, очищать и обрабатывать их и сохранять в базе данных.
Навыки науки о данных
Согласно udacity, важными навыками специалиста по данным являются:
- Программирование
- Машинное обучение
- Статистика
- Обработка данных: обработка, форматирование и преобразование данных
- Визуализация данных и коммуникация
- Интуиция данных (это немного менее ясно, я думаю, они имеют в виду устранение неполадок, связанных с анализом данных, знание того, что проверять и тестировать, когда что-то идет неожиданно.)
Обсуждение
Естественно, биоинформатик собирает данные в рамках своей работы и анализирует с помощью различных статистических методов и сложного математического моделирования для целей прогнозирования, люди обычно называют это работой специалиста по данным.
На мой взгляд, биоинформатика фокусируется на геномах и белках как последовательностях. Материал биоинформатики - это прежде всего струны. Строки - это тоже данные. Тем не менее, в других областях он сильно отличается от науки о данных.
Если вы удалите специфические для предметной области требования из набора навыков биоинформатики, у вас останется большая часть набора навыков в области науки о данных и некоторые другие. Людям, которые перейдут от биоинформатики к науке о данных, скорее всего, потребуется адаптироваться к организации и среде распространения данных своего работодателя.
Вывод
Это мое личное исследование, если у вас есть какие-либо комментарии, пожалуйста, свяжитесь со мной.
Добро пожаловать на мою среднюю страницу