Уравнения сознания несут большую ответственность, Билл Софткай

Здравствуйте, научный сотрудник Data Scientist!

Нам повезло. Ученые данных (в самом широком смысле) — это самые первые люди, чей концептуальный язык — в частности, уменьшение размерности, сжатие и статистическая проверка — может объяснить наши тела и умы, а, следовательно, и «сознание» в нейтральных, действенных терминах. Наш мозг — это обработчик информации, а специалисты по обработке и анализу данных знакомы с теорией информации. У нас есть Золотой Билет.

Я пришел в науку о данных после работы в Bell Labs, доктора философии Калифорнийского технологического института и постдока в Отделении математических исследований Национального института здравоохранения. Я работал в одном технологическом стартапе за другим в качестве кодировщика и архитектора программного обеспечения, сначала называя себя «специалистом по статистическим алгоритмам», а затем главным специалистом по алгоритмам, при этом продолжая писать свои собственные запросы и код на реальных языках, таких как Java и Python (не Matlab). или Математика). Произвел пару больших всплесков, и последние два стартапа были приобретены. Эти «выходы» дали мне время для работы над более крутыми вещами.

Оглядываясь назад, я, вероятно, был предназначен для науки о данных. Я вырос в Силиконовой долине, в Менло-Парке. Обучение программированию на Бейсике в возрасте девяти лет на олдскульном телетайпе с акустическим модемом, отслеживание утечек тока в наноамперах в самодельных печатных платах, измерение атомных ядер в качестве лазерного джокера в лабораториях Белла, поиск статистического золота в последовательностях нейронных импульсов в лабораториях Белла. Калифорнийский технологический институт… Я всегда собирал данные и сам их осмысливал.

С точки зрения физики/мозга/данных я вижу, что меч технологий режет в обе стороны. Теория информации говорит нам, насколько хрупким является наш мозг, а большие данные говорят нам, как еще эффективнее привлекать человеческое внимание. Проблема в том, что экономия внимания — это игра с нулевой суммой: каждый раз, когда мое приложение привлекает внимание или влияет на поведение, какой-то живой человек на другом конце теряет фокус или автономию. Да, мы можем алгоритмически воздействовать на нервную систему, но это несправедливо и вредно для них. Это дилемма, которую я хочу, чтобы мы, специалисты по данным, решили.

Я был ребенком двух блестящих ботаников и старшим братом одного. Папа был физиком-ядерщиком, мама какое-то время тоже, прежде чем стать репортером и экологом. Мой младший брат Эд подал корпоративный патент в старшей школе (изобретая способ измерения сотен датчиков с помощью трех проводов). Со мной он был блестящим сообщником, сотрудником и техническим коллегой. Наши родители оказали нам с Эдом большую помощь и предоставили много свободы, так что мы повсюду катались на велосипедах, покупали старые радиоприемники, чтобы починить их на гаражных распродажах, и лазили по деревьям.

Силиконовая долина тогда еще не называлась Силиконовой долиной. Санта-Клара и Фремонт были в основном фруктовыми садами. Стартапы, опционы на акции и венчурный капитал еще не существовали. Жизнь была более трехмерной: мы строили вещи своими руками, покупали в магазинах излишков (не в магазинах), катались на настоящих велосипедах по настоящему асфальту и были недоступны, если наши родители не знали, в чей дом позвонить. Технологии были редкостью: «междугородние» звонки были дорогими, автоответчиков не было, только пара телеканалов (ни одного в воскресенье утром, кроме «Сельское хозяйство США» из Небраски), ни кабеля, ни интернета, ни Google, ничего беспроводного, кроме рации. - радиостанции. Так было проще работать над крупными проектами, не отвлекаясь.

Что было забавного в создании телевизионных глушителей, «библиотекарей-мучителей», мигающих зажимов для галстука и тому подобного, так это создание их. Нам пришлось выбирать транзисторы, читать цветовые коды резисторов, делать собственные печатные платы и измерять напряжения и токи целыми днями с помощью аналоговых вольтметров и пятидесятифунтового лампового осциллографа Tektronix 512 1949 года выпуска с маленьким круглым зеленым экраном ( ограничение полосы пропускания 1 МГц). Мы брали и анализировали наши собственные данные на лету, и когда наши схемы, наконец, заработали, казалось, что мы победили Мать-Природу.

Тогда мы правили технологиями, а не они нами. Вы создали гаджет, чтобы делать что-то классное и простое, и он сработал. Никакого софта, никаких зависимостей, только провода и напряжения. Например, мы с Эдом сопротивлением взламывали систему громкой связи в средней школе Менло-Атертон. Это был идеальный «макгайверовский» проект, сделанный из кассетного магнитофона, спрятанного под навесом, два провода от него скрытно впаяны в коаксиальный кабель усилителя, а дистанционный выключатель сброшен в водосточную трубу для доступа из холла. ниже. У нас был один шанс, и он сработал: наше контрафактное объявление об отмене выпускных экзаменов транслировалось во втором уроке в последний день занятий на втором курсе.

Эта технология была аналоговой, простой и самодельной. Но сегодня с цифровыми технологиями соотношение между знаниями и сложностью человека и машины изменилось на противоположное, и вы покупаете его, а не создаете самостоятельно. Теперь технологии могут понять вас, дать вам совет, предвидеть вас и обмануть. За эти способности специалисты по данным могут поставить себе в заслугу.

В то время наука о данных также не называлась «наукой о данных». Я назвал себя «специалистом по статистическим алгоритмам», когда впервые вернулся в Долину. Не было рекламных щитов вдоль и поперек Bayshore Freeway, призывающих к набору специалистов по машинному обучению и науке о данных, как сейчас. Но работа по-прежнему делает вас одним из немногих людей в здании, которые действительно знают, что происходит. Вы выполняете запросы, проверяете данные, находите тенденции и корреляции, строите прогностические модели, живете и умираете с помощью математики, и вы получаете ухо генерального директора так, как никогда не могут маркетологи. Если данные — это источник жизненной силы компании, то специалист по данным — это оракул.

Конечно, люди не всегда слушают оракулов, даже если и должны. Руководители видят закономерности в случайном шуме или не верят статистике. Один генеральный директор сказал мне солгать его инвесторам (я этого не сделал). Некоторые проигнорировали доказательства серьезных проблем с продуктом; не раз я был посыльным, которого подстрелили. Конечно, потребности клиентов имеют приоритет; конечно, создание глубоких архитектур занимает слишком много времени. Конечно, законы обработки информации не могут ответить на все вопросы, но ответы, которые они дают, всегда верны. (Вы не можете изменить законы математики, капитан!)

Именно здесь наша коллективная вера в математику может помочь нам решить нашу дилемму. Самый важный принцип, который я усвоил за двадцать лет работы с данными, начиная с моего первого успешного коммерческого алгоритма (видеообнаружение автомобиля) и заканчивая моим самым эффективным (отладчик PreFix, который спас Microsoft) и самым сложным (автоматический участник аукциона Google AdWords). ), снижение размерности. В сценариях с ограниченной информацией — что означает почти всегда — необработанные данные должны быть как можно более изящно приспособлены к низкоразмерным непрерывным моделям.

Например, трюк под названием Singular Value Decomposition (SVD) преобразует один многомерный вектор в другой, проходя через узкую низкоразмерную узкую точку. Чем уже узкое место, тем лучше соотношение сигнал/шум и лучше ответы. Что-то вроде бритвы Оккама: лучшие модели — самые компактные. Уменьшение размерности становится намного более сложным, когда низкоразмерное многообразие данных искривлено или переменно, но основная идея — избавиться от шума с помощью разумного сжатия — важна.

В идеале вы заранее знаете структуру, которую ищете, например, «предположим», что в сутках 24 часа или в неделе семь дней. Никогда, никогда не используйте данные для повторного изучения вещей, которые вы знаете другими способами; это пустая трата данных. Например, МРТ-машины заранее знают, что вы существуете в трех измерениях, как заранее запрограммированное предположение еще до того, как поступят данные сканирования. Такие предварительные предположения не являются мошенничеством или ленью, они математически необходимы, чтобы добиться чего-либо с ограниченными данными. Это называется теоремой Байеса; Я впервые услышал о нем двадцать пять лет назад в Калифорнийском технологическом институте, и теперь это обычная валюта.

Если вы со мной до сих пор, у вас уже есть ключи, чтобы понять мозг и как жить. Это классный проект, над которым я работал последние пару лет с моей партнершей Крисцилией.

Вот результаты в трех очень сжатых абзацах. Они подробно обоснованы в следующей журнальной статье, а также здесь:



Я делюсь с вами этими мыслями, потому что хочу, чтобы вы поняли, как работает наш разум, и использовали эти знания, чтобы начать исцелять мир.

Мозг трехмерен. Все мозги эволюционировали, чтобы отображать трехмерное пространство, составляя пространственные карты из прерывистых импульсов, посылаемых распределенными датчиками. Не имеет значения, является ли это проприоцептивной картой импульсов механорецепторов или визуальной картой импульсов сетчатки, в обоих случаях данные многомерны и дискретны, но должны представлять непрерывное трехмерное пространство. Это функциональное определение томографии в реальном времени (например, МРТ), которая достаточно сложна с трехмерными априорными данными и, вероятно, невозможна без них. Вывод о том, что мозг — это механизм трехмерного моделирования, кажется очевидным в ретроспективе, но одним махом он продвигает сырой сенсомоторный опыт в реальном времени как высшую, чистейшую функцию мозга и умаляет все, что связано с квантованием. Память, язык, категории, решения и познание — все это грубые низкоскоростные хаки, плохо подходящие для изысканной непрерывной схемы, на которой они работают. Мы эволюционировали не для того, чтобы «думать», мы эволюционировали, чтобы двигаться, ощущать и чувствовать, что по-прежнему является нашей основной деятельностью, даже если мы не замечаем этого. Наш разум на самом деле непрерывен, един и намного мощнее, чем нас учили.

Природные материалы — это хорошо, искусственные — плохо. Оглянитесь вокруг: на свои ногти, на комнату, за окно. Посчитайте: используя в качестве эталона шаг пикселя HDMI 0,2 мм, ваше поле зрения демонстрирует теравоксельное разрешение с прогнозируемой задержкой на нуле и точностью фазы менее миллисекунды, получая всего миллион импульсов в секунду, то есть около мегабайта входных данных. распакован в миллионы раз в видение, намного превосходящее все, о чем виртуальная реальность может даже мечтать. Какая бы великолепная машина ни синтезировала в реальном времени гиперконсистентное изображение из нескольких фотонов через два крошечных отверстия зрачка, самонастраивающиеся стратегии этой машины развились для фрактальных, непрерывных, мультисенсорных, интерактивных входных данных. Думайте о деревьях и турбулентности, а не о прерывистых образах, событиях или словах. Эволюция сверхоптимизировала мозг не только для трехмерного пространства в целом, но и для определенных непрерывных паттернов, встречающихся в природе. Это статистический контракт и информационное питание, в которых нуждается каждый мозг. Как и следовало ожидать, такая высокопроизводительная система плохо работает, когда большая часть ее данных поступает в неправильном формате. И цифровые входы отклоняются от естественного контракта всеми возможными способами: они чередуют гладкость с прерывистостью, они ломают сенсорный ввод, они поступают на плоские экраны, они телепортируются сквозь пространство и время, и они специально созданы, чтобы привлекать наше внимание и удерживать наш интерес. . Технология не является ни естественной, ни случайной; он настолько изощрен, что может увлечь и даже взломать наш мозг.

Вернитесь к основам сенсомоторики. Мозг отлично работает при правильном входе. Вы позвоночное животное, поэтому ваши самые важные системы расположены вдоль средней линии (глотание, дыхание, размножение). Научитесь чувствовать и сгибать позвоночник с помощью йоги, пилатеса, танцев или упражнений по методу Фельденкрайза. Делайте упор на высокоэнтропийную грацию и гибкость, а не на низкоэнтропийные повторения и кардио. Отправляйтесь «купаться в лесу» в тихих и/или естественных местах с деревьями, видами, ветром или водой. Когда можете, будьте рядом с людьми в непосредственной близости, в идеале без удаленных отвлекающих факторов, и впитывайте микровыражения и наножесты человеческого резонанса. Используйте эти невербальные каналы на работе как можно больше. Когда вы должны использовать цифровые каналы, уважайте их сбои, предубеждения и ограниченную сенсорную полосу пропускания. Не ждите ответов с малой задержкой, считайте недопонимание невинным, не выражайте эмоции через текст. Мобильный телефон лучше, чем текст, стационарный телефон лучше, чем мобильный, видео лучше, чем только аудио, но близость по-прежнему превосходит все, в миллионы раз.

Трагедию техногенного ущерба лучше всего объяснить не на языке капитализма, материализма, цивилизации, биологии человека или даже жизни на основе углерода. Самый эффективный язык — это математика, и он описывает неизбежное столкновение между привычками существ собирать информацию и естественными результатами их материальной продуктивности. Мы делаем вещи, которые находим привлекательными, и теперь это все, что мы видим. Это может произойти где угодно во Вселенной.

Триумф Data Scientist заключается в том, что мы можем понимать свой разум как сверхмощный репрезентативный двигатель. Трагедия Data Scientist двойственна. Во-первых, работа за компьютером наносит ущерб нашим собственным сенсорным потребностям: мы должны часами сидеть в помещении, смотреть в экраны, общаться с помощью текста и думать с помощью кода и чисел. Во-вторых, наша профессия наносит ущерб внешнему миру, когда манипулирует людьми, накапливая доходы от микрокраж человеческого внимания и автономии, а результаты вызывают зависимость у детей и подрывают выборы. Мы, специалисты по данным, одновременно благословенны и прокляты: мы будем первыми, кто узнает, из чего состоит человечество, и первыми, кто предложит помощь, но также и первыми, кто поймет наши преступления. Давайте применим наш мозг, чтобы решить их.