На самом деле это что-то вроде святого Грааля — если бы мы могли каким-то образом выяснить, чему вся эта мозговая активность фактически соответствует, что ж, это все изменило бы, а не Это? Системы управления, основанные на мыслях, перейдут из научной фантастики в реальность 🙌, как и нарушения конфиденциальности 😡. Тем не менее, до сих пор мозг был удивительно непрозрачен для наших исследований, поэтому я полагаю, что будущее все еще остается будущим, верно?

Хотя, возможно, не так далеко в будущем. Первая трещина пришла из фМРТ, где для упрощения эксперименты по сути помещали людей в МРТ-системы, показывали им изображение (скажем, леопарда) и записывали, что происходит в мозгу.
хорошая новость заключается в том, что в мозгу загорается куча вещей, а плохая новость заключается в том, что в мозгу загорается куча вещей, и никто не знает, что это значит.

Некоторые исследователи подходили к этому более научно и вместо леопарда показывали испытуемым простые вещи. Камитани и Тонг, например, показывали своим испытуемым прямые линии под разными углами и записывали результаты фМРТ¹. С помощью статистического анализа они смогли продвинуться немного дальше и сказать что-то вроде да, субъект видел край под углом 45° .
Это быстро распространилось на создание целых баз данных (этот паттерн в мозгу означает, что пациент X видел «Девушку с жемчужной сережкой Вермеера»)². Хороший материал, но все еще далек от обобщения, в основном потому, что
а) вы могли распознавать только то, что уже было в базе данных, и
б) Каждая база данных относилась к конкретному пациенту.

Это, конечно, именно то, где глубокое обучение (DL) вступает в игру. Еще в 2017 году (это почти столетие назад в годы DL) Хорикава и Камитани³ использовали глубокие нейронные сети (DNN), чтобы сопоставить то, что фМРТ увидело в мозгу субъекта, с изображением, на которое субъект смотрел. Что еще более важно, они обнаружили, что уровни сложности зрительных функций (например, лицо и овал) напрямую связаны с иерархической стимуляцией областей мозга в зрительной коре, что казалось подразумевая, что мозг постепенно задействует иерархические области зрительной коры для декодирования (сложных!) визуальных особенностей того, на что смотрит глаз.

Что подводит нас к настоящему моменту, когда Хорикава и Камитани⁴ (снова!) сделали еще один шаг вперед. Они нашли способ реконструировать изображения, которые видит зрительная кора!
Хитрость здесь заключается в работе Аравинда Махендрана и Андреа Ведальди⁵, которые — в 2015 — инвертировали распознавание изображений на основе DL, т. е. рассматривая то, как изображение представлено в DNN, они могли выяснить, что является исходным изображением.

Аналогия в этом месте должна быть ясной, не так ли? ФМРТ показывает нам, как данные «представлены» в нейронных сетях мозга. И технику Махендрана/Ведальди можно использовать для восстановления исходного изображения из этой кодировки!

Хорошо, это немного сложнее. В конце концов, нейронная сеть мозга на самом деле отличается от DNN, верно? Способ, которым Хорикава и Камитани справился с этим, заключался в обучении другого DNN на тех же изображениях. Цитировать,

Алгоритм реконструкции начинается со случайного изображения и итеративно оптимизирует значения пикселей, чтобы характеристики DNN входного изображения стали похожими на те, которые были декодированы на основе активности мозга на нескольких слоях DNN.

Есть еще, намного больше, читайте бумагу для подробностей. Результаты, хотя и показаны для трех предметов, впечатляют — вы можете ясно увидеть некоторый уровень сложности черт, цветов и текстур. Это не показано здесь, но результаты распознавания букв алфавита были даже лучше — вероятно, потому, что они включают только обнаружение краев и основные формы.
(Кстати, причина того, что некоторые изображения являются фотонегативными, заключается в том, что информация о яркости теряется при преобразовании фМРТ в DNN)

Действительно интересные времена — с такой скоростью нам, возможно, придется начать думать о соображениях конфиденциальности в этой области в ближайшее время!

  1. Расшифровка визуального и субъективного содержимого человеческого мозга» — Юкиясу Камитани и Фрэнк Тонг.
  2. Идентификация естественных образов по деятельности человеческого мозга» — Кей и др.
  3. Общее декодирование увиденных и воображаемых объектов с использованием иерархических визуальных признаков — Томоясу Хорикава и Юкиясу Камитани.
  4. Реконструкция глубокого изображения активности человеческого мозга — Томоясу Хорикава и Юкиясу Камитани.
  5. Понимание глубинных изображений путем их инвертирования» — Аравинд Махендран и Андреа Ведальди.

(Эта статья также есть в моем блоге)