Открытый исходный код Datamol, библиотеки Python для интуитивного управления молекулами

TL; DR: Datamol теперь с открытым исходным кодом! Начните с datamol.io, а следите за @datamol_io.

За последние несколько лет мы стали свидетелями неуклонного роста использования методов искусственного интеллекта при открытии лекарств и первых намеков на то, какое влияние эти технологии окажут в ближайшие годы.

Однако за пределами биотехнологических компаний, занимающихся первоочередными задачами искусственного интеллекта, и крупнейших фармацевтических компаний внедрение этих технологий замедлилось, в основном из-за отсутствия ученых и инженеров, прошедших перекрестную подготовку как в области современного глубокого обучения, так и в области химии. С другой стороны, ученым в области машинного обучения, стремящимся применить свои исследования в реальных приложениях, часто бывает сложно ориентироваться во вселенной химиоинформатики. В конечном итоге молекулы представляют собой сложный тип данных, требующий опыта как в химии, так и в области вычислительной техники.

Молекулярные манипуляции в Валенсии

В Valence вычислительные манипуляции с молекулами - повседневное явление. От нашей команды ML Ops до инженеров полного цикла и ученых-исследователей машинного обучения - все тратят значительную часть своего дня, манипулируя молекулами.

Как и многие другие, мы в полной мере пользуемся преимуществами библиотеки RDKit с открытым исходным кодом, которая была создана на основе десятилетий разработки сообщества и широко считается стандартом де-факто в химиоинформатике. Основной механизм RDKit построен на C ++, что упрощает взаимодействие с одним из самых популярных языков в области науки о данных: Python. RDKit также активно поддерживается (основные обновления выпускаются каждые 6 месяцев), и у него есть большое сообщество, обеспечивающее регулярные исправления ошибок, а также постоянную интеграцию новых функций.

По мере того, как наша внутренняя кодовая база в Valence росла, нам нужен был способ централизовать все процедуры и функции, используемые для управления молекулами. Это не только помогает сократить (иначе крутой!) Кривую обучения для ученых машинного обучения, плохо знакомых с химиоинформатикой, но также помогает сделать нашу платформу более надежной за счет стандартизованных процедур и меньшей площади поверхности для потенциальных ошибок.

Представляем Datamol

🐍 Datamol - это библиотека Python, цель которой - сделать работу с молекулами интуитивно понятной, при этом обеспечивая полный контроль над рабочими процессами молекулярной обработки.

✅ Все, что вам нужно для начала, это:

mamba install -c conda-forge datamol

⚗️ Datamol - это библиотека света, которая напрямую управляет объектами RDKit Chem.Mol. Его API был разработан с учетом простоты, гибкости и модульности, и он работает с одним импортом (аналогично Pandas и NumPy).

🕹️ Datamol также предлагает различные функции молекулярного преобразования и ввода-вывода для загрузки, сохранения и преобразования между несколькими молекулярными представлениями и форматами файлов, такими как SMILES, SMARTS, InCHI, SELFIES, SMI, SDF, CSV, Excel, DataFrame и другие. Все функции ввода-вывода работают прозрачно как в локальных, так и в удаленных файловых системах (например, AWS S3 или Google Storage).

🧠 Молекулярная кластеризация, фрагментация и перечисление каркасов - другие распространенные задачи при работе с наборами молекулярных данных. У Datamol есть несколько функций для этого, например, выбор центроидов и фрагментация БРИКС. Datamol также содержит дополнительные модули, которые могут быть полезны для 2D / 3D-визуализации, генерации конформеров, манипулирования реакциями, редактирования молекул и многого другого.

🏭 В Valence мы очень тщательно проверяем и проверяем код, прежде чем запускать его в производство. Система непрерывной интеграции гарантирует, что Datamol может быть установлен и запущен на поддерживаемых платформах (Linux, OSX и Windows) с различными комбинациями версий RDKit и Python. Datamol документирует матрицу совместимости между поддерживаемой версией Python и RDKit.

Сообщите нам, что вы думаете о Datamol!

Datamol - зрелая библиотека, которую мы используем внутри компании Valence более года. Мы рады открыть его сегодня и надеемся, что это может ускорить внедрение молекулярного машинного обучения в отрасли в более широком смысле.

Вы можете ознакомиться с нашими обучающими материалами на сайте doc.datamol.io или попробовать Датамол онлайн. Мы будем рады вашим отзывам в репозитории Github, на форуме или в Твиттере!