Введение

Консенсусный анализ основных компонентов (CPCA) — это анализ основных компонентов, применяемый к многоблочным данным. Этот метод был разработан Уолдом и др. в 1987 году для сравнения нескольких блоков дескрипторов, измеренных на одном и том же объекте/экземпляре. Вкратце, в CPCA вектор супероценок регрессируется для всех блоков, что дает переменные нагрузки блоков, вектор оценок для каждого блока и веса, которые сопоставляют оценки блоков с супероценками.
На практике супероценки представляют собой проекция объекта/экземпляра на все блоки, а веса представляют вклад каждого блока в это представление. Представление супероценки — это PCA, применяемая ко всем блокам, объединенным в один вектор для каждого экземпляра.
Подробное объяснение алгоритма CPCA см. в следующей бумаге.

Где мы можем использовать эту методологию?

  • Анализ метаболических данных
  • Анализ временных рядов
  • Трехмерные молекулярные представления/дескрипторы
  • В общем, любая тензорная форма данных

Практический пример

Вот пример приложения к трехмерному электростатическому потенциалу, созданному для более чем 5980 молекул с низкой минимальной энергетической конформацией и 10 случайными вращениями (5980 объектов/экземпляров). В этом примере молекулярное представление состоит из 25 x 25 x 25 воксельных точек (признаков), которые определяют электростатический потенциал одиночной молекулы в поле 25 кубических ангстрем, сгенерированных с использованием частичных зарядов MMFF94. Наш входной тензор CPCA будет 5980 x 25 x 25 x 25, около 815 МБ данных в форме CSV. После расчета CPCA мы наносим на график первые два компонента суперпоказателей, которые объясняют 38% общей дисперсии, и мы можем применить принцип «похожие точки имеют схожие физико-химические свойства» и, в конечном итоге, аналогичную биологическую активность.

Например, анализируя электростатический потенциал двух близких молекул (рис. 1, А и В), мы можем увидеть, насколько они похожи при изозначении +/- 0,05. Если мы сравним эти поля с другим полем, генерируемым противоположной молекулой (рис. 1 C), мы увидим, что электростатический потенциал совершенно различен при одном и том же изозначении. Следовательно, с помощью этой методологии мы могли напрямую сравнивать воксельные представления молекулярного электростатического потенциала.

Реализация CPCA
CPCA доступен в libscientific, среде C с открытым исходным кодом для многомерного и другого статистического анализа. Доступ к этому методу можно получить с помощью c/c++ или python API. Реализация графического пользовательского интерфейса также доступна через QStudioMetrics, программное обеспечение с открытым исходным кодом для разработки интеллектуального анализа данных и многомерного анализа.

Обо мне
Я специалист по хемоинформатике с опытом работы в области химии, машинного обучения (МО) и хемоинформатики, применяемой для разработки лекарств. Я занимаюсь химико-информатической разработкой с 2008 года на C/C++ и python. Я работал в Женевском университете, Институте искусственного интеллекта им. Далле Молле (IDSIA) и компании Hoffmann-La Roche. В настоящее время я работаю в Endogena Therapeutics в качестве руководителя отдела искусственного интеллекта и химинформатики, внедряя новые методы искусственного интеллекта для открытия лекарств. Я защитил докторскую диссертацию. Кандидат химических наук в Лаборатории хемометрии и химико-информатики Университета Перуджи (Италия). Я энтузиаст Linux/Unix и сторонник открытого исходного кода.