Такая же захватывающая и успешная отрасль, как технологическая отрасль

COVID-19 заставил нас сосредоточиться и надеяться на науки о жизни и биотехнологии.

Здоровье - наш самый ценный актив, и мы не тратим никаких средств, чтобы оставаться здоровыми. Итак, отрасли биотехнологий и биотехнологий огромны и очень разнообразны с множеством подсекторов. Наиболее известными областями являются открытие и производство лекарств, терапия, диагностика, терапия, геномика и протеомика, ветеринарные науки о жизни, а также косметика, медицинские технологии и распространение.

Эта отрасль обладает огромным объемом данных. Доступны данные клинических испытаний, лекарств, методов лечения, диагностики, геномики, поставщиков медицинских услуг, а с появлением всех носимых устройств - все личные данные о фитнесе.

Науки о жизни и биотехнологии во многих областях относятся к сфере больших данных.

С другой стороны, затраты на разработку новых методов лечения, лекарств или вакцин начинаются от почти одного миллиарда долларов США и двузначных миллиардов долларов США на редкие заболевания. Для сравнения: BioNTech и Moderna: каждая компания получила почти 1 миллиард долларов внешнего финансирования на разработку вакцины. Общие затраты на разработку не разглашаются, но предполагается, что они кратны этой сумме.

Это огромные суммы инвестиций, и отрасль прилагает все усилия, чтобы снизить затраты и расходы и сделать лечение и терапию доступными быстрее. Таким образом, отрасль становится такой же управляемой данными, как и технологическая отрасль.

Итак, отрасли наук о жизни и биотехнологии - это рай для специалистов по данным. У игроков есть большие объемы данных, и специалист по данным ежедневно работает в области больших данных.

Многие специалисты по данным не знакомы с этой отраслью. Один входной барьер - это очень специализированные знания, необходимые для понимания тем и работы в соответствующих областях.

Во-вторых, причинно-следственная связь и точность имеют первостепенное значение и требуют глубоких математических и (био) статистических знаний. Если алгоритм приводит к отображению неверной рекламы пользователю услуг одной из крупных технологических компаний, ничего не происходит. Если алгоритм приводит к неправильному решению при разработке лекарств, это может привести к огромным потерям инвестиций или даже к смерти.

Я много лет работал консультантом по науке о данных в биотехнологической и медико-биологической отрасли. И мне это нравилось, потому что там мне всегда приходилось решать самые сложные и волнующие проблемы.

Чтобы лучше понять эту захватывающую отрасль, я представляю 8 реальных примеров использования науки о данных. Это дает вам представление о приложениях и знакомит с основными бизнес-знаниями в этой области.

Не хватает специалистов по анализу данных в фармацевтике, науках о жизни и биотехнологиях. В конце концов, я смогу мотивировать вас перейти в эту захватывающую отрасль с уровнем заработной платы, сопоставимым с технологической отраслью, но с еще большей защитой от рецессии.

1. Разработка терапевтических средств для микробиома

В нашем организме есть огромное количество микроорганизмов, так называемой микробиоты, таких как бактерии, грибы, вирусы и другие одноклеточные организмы. Все гены микробиоты известны как микробиом. Число этих генов составляет триллионы, и, например, бактерии в организме человека имеют более чем в 100 раз больше уникальных генов, чем люди.

Микробиота оказывает огромное влияние на здоровье человека, а дисбаланс вызывает множество расстройств, таких как болезнь Паркинсона или воспалительное заболевание кишечника. Существует также предположение, что такой дисбаланс вызывает несколько аутоиммунных заболеваний. Итак, исследование микробиома - очень модная область исследований.

Чтобы повлиять на микробиоту и разработать лекарственные средства микробиома, чтобы обратить вспять болезни, нужно понимать гены микробиоты и ее влияние на наш организм. При всех возможностях секвенирования генов сегодня доступны терабайты данных, но они еще не исследованы.

Чтобы разработать методы лечения, нацеленные на микробиом, и предсказать взаимодействия микробиома и лекарств, нужно сначала знать такие взаимозависимости. И здесь на помощь приходит машинное обучение.

Первый шаг - найти закономерности. Одним из примеров является дисбаланс микробиоты кишечника, который вызывает заболевания двигательных нейронов, то есть нарушения, которые разрушают клетки для деятельности скелетных мышц, то есть мышцы больше не могут контролироваться. Обычно включается более 1000 индивидуальных параметров. Управляемое машинное обучение и обучение с подкреплением - основные алгоритмы на этом этапе.

При разработке терапии необходимо учитывать несколько сотен факторов, таких как лекарственная форма, растворимость лекарства, стабильность лекарства, а также введение и производство лекарств. Например, случайный лес часто используется в вопросах, касающихся стабильности лекарств.

Последний шаг - это персонализация терапии. Для этого нужно предсказать реакции и взаимодействия микробиома и лекарства. Стандартными методами являются анализ основных компонентов с последующими алгоритмами обучения с учителем. Самой большой проблемой на этом этапе по-прежнему является отсутствие больших баз данных для обучения моделей.

2. Точное лекарство от блокбастера ревматоидного артрита

Блокбастер - это чрезвычайно популярный наркотик, приносящий как минимум годовой доход более 1 миллиарда долларов. Блокбастеры посвящены распространенным заболеваниям, таким как диабет, высокое кровяное давление, распространенные виды рака или астма. На рынке обычно много конкурирующих продуктов.

«Точная медицина» означает, что это лечение групп людей, которые имеют определенные характеристики, которые поддаются лечению (см. Рисунок ниже).

Для лучшего, т. Е. Дифференциации от других лекарств, а также для более точного нацеливания и маркетинга продукта, определяются группы пациентов, которые лучше реагируют на подавление болезни. Цель такая же, как и в любом проекте маркетинговой аналитики. Используемые данные представляют собой так называемые данные реального мира (RWD), то есть данные пациентов, прошедших лечение, а не данные клинических испытаний.

Основные методы - это методы обучения с учителем, потому что у нас есть желаемое выходное значение. Помимо обычных методов регрессии / логистической регрессии, опорных векторных машин и случайного леса, сегодня при больших объемах данных применяются алгоритмы глубокого обучения, такие как сверточные нейронные сети (CNN). CNN часто превосходит другие методы.

3. Прогнозирование сердечной недостаточности с помощью мобильных устройств

Сердечная недостаточность обычно приводит к госпитализации или неотложной помощи. Ожидается, что по мере старения населения процент сердечной недостаточности среди населения будет увеличиваться.

Люди, страдающие сердечной недостаточностью, обычно имеют уже существующие заболевания. Таким образом, нередко системы телемедицины используются для мониторинга и консультации пациента, а мобильные данные о состоянии здоровья, такие как артериальное давление, масса тела или частота сердечных сокращений, собираются и передаются.

Большинство систем прогнозирования и предотвращения основаны на фиксированных правилах, например, когда конкретные измерения превышают заранее определенный порог, пациент получает предупреждение. Само собой разумеется, что такая система прогнозирования имеет большое количество ложных предупреждений, то есть ложных срабатываний.

Поскольку предупреждение приводит в основном к госпитализации, слишком много ложных предупреждений приводят к увеличению затрат на здоровье и ухудшают уверенность пациента в прогнозе. В конце концов, он или она перестанут следовать рекомендациям о медицинской помощи.

Таким образом, на основе исходных данных пациента, таких как возраст, пол, курильщик или нет, кардиостимулятор или нет, а также измерения концентраций натрия, калия или гемоглобина в крови и отслеживаемые характеристики, такие как частота сердечных сокращений, масса тела (систолическое и диастолическое) кровяное давление, или ответы на анкеты о самочувствии или физической активности, наконец-то был разработан классификатор, основанный на Наивном Байесе.

Количество ложных срабатываний снизилось на 73%, с AUC (« площадь под кривой )» около 70%.

4. Прогнозирование, диагностика и лечение психических заболеваний

По оценкам, не менее 10% населения мира страдает психическим расстройством. Экономические потери от психических заболеваний составляют почти 10 триллионов долларов. Психические расстройства включают, среди прочего, тревогу, депрессию, расстройство, вызванное употреблением психоактивных веществ, например опиоид, биполярное расстройство, шизофрению или расстройства пищевого поведения.

Итак, выявление психических расстройств и вмешательство как можно раньше имеет решающее значение. Существует два основных подхода: приложения для потребителей, которые выявляют заболевания, и инструменты для психиатров для поддержки диагностики.

Приложения для потребителей обычно представляют собой диалоговые чат-боты, усовершенствованные с помощью алгоритмов машинного обучения. Приложение анализирует разговорный язык потребителя и дает рекомендации по оказанию помощи. Поскольку рекомендации должны основываться на научных данных, взаимодействие и отклик предложений, а также индивидуальная языковая модель должны быть предсказаны как можно точнее.

Применяемые методы различаются. Первым шагом почти всегда является анализ настроений. В более простых моделях используются случайный лес и наивный байесовский анализ. Эти модели значительно уступают по производительности нейронным сетям с тремя скрытыми слоями.

5. Публикация с исследованиями и сканирование баз данных на предмет биомаркеров инсульта

Инсульт - одна из основных причин инвалидности и смерти. Пожизненный риск взрослого человека составляет около 25% от одного случая инсульта. Но инсульт - очень неоднородное заболевание. Таким образом, индивидуальный уход до и после инсульта имеет решающее значение для успеха лечения.

Чтобы определить этот индивидуальный уход, следует выбрать фенотип человека, то есть наблюдаемые характеристики человека. И обычно это достигается с помощью биомаркеров. Так называемый биомаркер - это измеряемая точка данных, позволяющая стратифицировать пациентов. Примерами являются оценка тяжести заболевания, характеристики образа жизни или геномные свойства.

Многие известные биомаркеры уже опубликованы или находятся в базах данных. Кроме того, ежедневно появляются сотни научных публикаций об обнаружении биомаркеров для всех различных заболеваний.

Исследование чрезвычайно дорого и требует времени, чтобы предотвратить расстройство. Таким образом, биотехнологические компании должны понимать наиболее эффективные и действенные соответствующие биомаркеры для конкретного заболевания. Объем информации настолько велик, что это невозможно сделать вручную.

Наука о данных помогает в разработке сложных алгоритмов НЛП для поиска соответствующих биомаркеров в базах данных и публикациях. Помимо понимания содержания, если такой биомаркер актуален для определенного типа инсульта, необходимо оценить качество опубликованных результатов. В целом это очень сложная задача.

6. 3D биопечать

Биопечать - еще одна актуальная тема в области биотехнологий. Основанный на цифровом чертеже, принтер использует клетки и натуральные или синтетические биоматериалы, также называемые биочернилами, для послойной печати живых тканей, таких как кожа, органы, кровеносные сосуды или кости.

Вместо того, чтобы зависеть от пожертвований органов, их можно производить на принтерах более этично и экономично. Кроме того, тесты на наркотики проводятся на синтетической ткани, а не на животных или людях. Вся технология все еще находится на ранней стадии развития из-за своей высокой сложности. Одна из самых важных частей, позволяющая справиться со сложностью печати, - это наука о данных.

Процесс и качество печати зависят от множества факторов, таких как свойства биочерок, которым присуща изменчивость, или различные параметры печати. Например, чтобы повысить эффективность получения пригодного к употреблению вывода и, таким образом, оптимизировать процесс печати, применяется байесовская оптимизация.

Скорость печати - ключевой компонент в этом процессе. Сиамские сетевые модели используются для определения оптимальной скорости. Для обнаружения материала, то есть дефектов ткани, сверточные нейронные сети применяются к изображениям из послойной ткани.

Есть еще много приложений в процессе подготовки, производства и постпроизводства, но эти три примера уже демонстрируют сложность и необходимые продвинутые модели. На мой взгляд, эта область - одна из самых интересных в биотехнологии для специалистов по анализу данных.

7. Индивидуальная терапия при лечении рака яичников

«Персонализированный» означает, что применяется лечение, соответствующее потребностям одного человека (см. Рисунок выше). Лечебные процедуры все больше и больше основываются на индивидуальных характеристиках пациента.

Эти свойства представляют собой подтипы заболеваний, личные риски пациента, прогноз для здоровья, а также молекулярные и поведенческие биомаркеры. Выше мы видели, что биомаркером является любая измеряемая точка данных, позволяющая разделить пациентов. На основе этих данных определяется наилучшее индивидуальное лечение для одного пациента.

Для одной пациентки с раком яичников обычная химиотерапия оказалась неэффективной. Итак, было решено выполнить секвенирование генома, чтобы найти неуместные нуклеотидные основания, вызывающие этот рак. С помощью аналитики больших данных было обнаружено изменение среди 3 миллиардов пар оснований человека, что соответствует количеству слов в 7798 книгах «Философского камня» Гарри Поттера.

Применяемые методы обычно представляют собой так называемые ковариационные модели, часто в сочетании с классификатором, таким как случайный лес. Интересно, что эта модификация была известна от рака легких, где лекарство существует, но не от рака яичников. Итак, лечение рака легких было применено, и пациентка выздоровела.

8. Оптимизация цепочки поставок

Производство лекарств требует времени, особенно сегодняшних высокотехнологичных лекарств, основанных на определенных веществах и методах производства. Кроме того, все процессы разбиты на множество различных этапов, и некоторые из них переданы на аутсорсинг специализированным поставщикам.

Мы видим это в настоящее время при производстве вакцины против COVID-19. Изобретатели вакцины поставляют план, и производство находится на заводах компаний, специализирующихся на стерильном производстве. Вакцина поставляется в резервуарах компаниям, которые вводят небольшие дозы в клинических условиях, и, наконец, поставка осуществляется другой компанией.

Кроме того, лекарства можно хранить только ограниченное время и часто в особых условиях хранения, например, в холодном помещении.

Все планирование, начиная с наличия нужных вводимых веществ, доступных в нужное время, наличия адекватных производственных мощностей и, наконец, надлежащего количества лекарств, хранящихся для удовлетворения спроса, представляет собой очень сложную систему. И это необходимо для сотен и тысяч терапий, каждая со своими специфическими условиями.

Вычислительные методы необходимы для управления этой сложностью. Например, выбор оптимальных компаний-партнеров в производственном процессе осуществляется с помощью контролируемого обучения, такого как машины опорных векторов.

Прогнозирование динамического спроса часто опирается на так называемую регрессию вектора поддержки, а сама оптимизация производства использует нейронные сети.

Заключение

Удивительно, что современные технологии и наука могут достичь сегодня. Он раскрывает наиболее значительную ценность в сочетании с наукой о данных.

Что касается методов, мы видим, что методы обучения с учителем - случайный лес, наивный байесовский метод и машины опорных векторов - часто используются, при этом преобладают обучение с подкреплением, НЛП и глубокое обучение.

Кроме того, необходимы вычислительные методы для работы с многомерными данными и поиском, такие как анализ главных компонентов и ковариационные модели.

Работа на переднем крае инноваций требует знаний в определенных областях, таких как байесовская оптимизация, сверточные нейронные сети или сиамские сети.

Наиболее значительным барьером для входа в эту область является знание конкретной темы, что позволяет понимать (необработанные) данные. Самый быстрый путь для ознакомления - это читать научные публикации и каждое незнакомое выражение старательно искать. Работая в этой сфере, нужно говорить словами экспертов.

Только тогда вы сможете оказать огромное влияние как специалист по данным. Но это также и самый полезный аспект.

Я никогда не мог иметь большего влияния в своей работе, чем в сфере биотехнологий и биотехнологий.

Тебе нравится моя история? Здесь вы можете узнать больше.