Сейчас время, когда современное машинное обучение трансформирует многие предприятия (см. Этот отчет из MIT Sloan Management Review).
В Dataswati мы вносим свой вклад в эту трансформацию, работая над улучшением производства с использованием искусственного интеллекта и уменьшением его зависимости по инженерным кадрам. Далее следует рассказ о применении науки о данных и машинного обучения в нейробиологии (тема моей докторской диссертации) с некоторыми уроками для производства в конце. Читать дальше.

Короче

Нейроны в головном мозге взаимодействуют с последовательностями событий быстрой активации, называемых спайками. Вместе с моими соавторами из Группы нейронной теории в École Normale Supérieure (ENS), Иваном Лазаревичем и Борисом Гуткиным мы были удивлены, что проблема классификации этих последовательностей спайков (кода спайков) отдельных нейронов не решалась. подходили как чисто наука о данных. Не раньше.

В нашей недавней статье мы впервые предложили несколько подходов к интеллектуальному анализу данных об активности отдельных нейронов для решения различных задач классификации.

Фон

Честно говоря, методы науки о данных и машинного обучения не чужды нейробиологии. Они активно используются для анализа записей на уровне всего мозга (например, данных фМРТ, ЭЭГ, МЭГ). Этот тип данных был в центре внимания, потому что скоординированная активность нейронных популяций, как считается, управляет глобальными состояниями мозга, например, различными фазами обучения, фазами сна, состояниями бодрствования в состоянии покоя, состояниями, вызванными заболеванием, по сравнению с нормальными состояниями. Однако активность отдельного нейрона никогда не рассматривалась в качестве предиктора этих глобальных состояний.

Почему классификация глобальных состояний мозга на основе активности отдельного нейрона является важной проблемой? По нескольким причинам: i) в случае ее решения он мог бы резко сократить объем данных, необходимых для этих задач классификации (данные одного нейрона по сравнению с данными о населении), ii) он позволяет количественно оценить количество прогнозирующей информации, содержащейся в коде пиков отдельного нейрона.

Далее следует наше решение проблемы расшифровки активности отдельного нейрона для классификации состояний мозга.

Базовый подход

Для нашего базового подхода мы сначала разработали несколько эффективных представлений временных рядов активности нейронов и использовали методы k-ближайших соседей (kNN) с рядом показателей расстояния, включая те, которые не являются стандартными для анализа нейробиологических данных.
Для некоторых задач, таких как классификация типов нейронов на основе их активности, мы обнаружили, что показатели сходства спайковых последовательностей, которые иногда используются в нейробиологии, уступают применяемым нетривиальным метрикам, таким как Колмогоров – Смирнов или Вассерштейн. расстояния. Вы можете узнать больше об этих типах показателей расстояния на странице https://statweb.stanford.edu/~souravc/Lecture2.pdf.

Что, если вместо наивных базовых методов мы воспользуемся более продвинутыми?

Огромное преимущество современных подходов к машинному обучению перед классическими методами анализа данных заключается в их большей гибкости: мы можем значительно сократить (если не исключить) ручную разработку функций / показателей и избавиться от человеческой предвзятости.

Поэтому мы автоматически извлекли множество функций (свойств) из временных рядов нейронов и использовали различные модели машинного обучения, каждая из которых способна изучать различные виды зависимостей ввода-вывода и извлекать различные типы информации. Мы попробовали kNN, логистическую регрессию с различными типами регуляризации, случайные леса и чрезвычайно рандомизированные деревья, деревья принятия решений с градиентным усилением (GBM), SAX-VSM, BOSSVS, и, наконец, мы использовали ансамбль моделей (суммирование и смешивание) для получить максимум от множества различных моделей.

Мы обнаружили, что современные подходы к машинному обучению, такие как Gradient Boosted Decision Trees (реализация xgboost), обученные многим функциям, превзошли наши базовые показатели. Более того, комбинируя разные методы, мы смогли усилить эти результаты. В настоящее время мы применяем самые современные подходы к глубокому обучению и дополнительно количественно оцениваем прогностическую информацию, содержащуюся в активности отдельных нейронов.

Заключение

Короче говоря, то, что хорошо для нейронного кода, хорошо и для ряда различных систем, например, для сложных промышленных процессов. В нашей повседневной работе в Датасвати мы снова и снова видим одну и ту же модель: классические наивные подходы к анализу данных временных рядов часто уступают современным машинному обучению, которое эффективно фиксирует сложные временные закономерности в данные.

Чтобы прочитать историю полностью, нажмите здесь.