Все знают о последних достижениях Deep Learning. Но нейронные сети имеют долгую историю, начавшуюся 80 лет назад.

Эта статья является выдержкой из моей книги Наука о данных для прогнозирования цепочки поставок.

1940 Предыстория: искусственные нейроны

История искусственных нейронов восходит к 1940-м годам, когда Уоррен МакКаллох (невролог) и Уолтер Питтс (логик) смоделировали биологическую работу органического нейрона в первом искусственном нейроне, чтобы показать, как простые единицы могут воспроизводить логические функции.

1950 г. Искусственные нейронные сети

Вдохновленный публикацией Уоррена Маккаллоха и Уолтера Питтса, Фрэнк Розенблатт (психолог-исследователь, работающий в Корнельской авиационной лаборатории) в 1950-х годах работал над персептроном: одним слоем нейронов, способным классифицировать изображения размером в несколько сотен пикселей. Это можно рассматривать как первого предка современных нейронных сетей.

Гениальность Розенблатта заключалась в реализации алгоритма обучения нейронов на основе набора данных. Розенблатт вдохновлялся работами канадского психолога Дональда Хебба, который в своей книге 1949 года «Организация поведения» предположил, что связи между (органическими) нейронами укрепляются по мере их использования (это подтвердилось только в 1960-х годах). Идея Розенблатта заключалась в том, чтобы воспроизвести это с помощью своего персептрона. The New York Times сообщила, что Розенблатт пророчествует, что персептроны в будущем смогут «узнавать людей и называть их имена», «мгновенно переводить речь на одном языке в речь или письмо на другом языке», «вылетать на планеты в виде механических исследователей космоса», но и «воспроизводить себя» и быть самосознательным.

Оригинал статьи можно прочитать здесь: https://www.nytimes.com/1958/07/08/archives/new-navy-device-learns-by-doing-psychologist-shows-embryo-of.html

1970 Первая зима нейронной сети (1970-е — середина 1980-х)

К сожалению, из-за алгоритма обучения персептрон был ограничен одним слоем нейронов. Несмотря на большой интерес к этим ранним разработкам, профессора Массачусетского технологического института Марвин Мински и Сеймур Пейперт опубликовали в 1969 году книгу («Персептроны: введение в вычислительную геометрию»), демонстрирующую, что возможности персептрона ограничены. Это привело к первой «нейросетевой зиме» до середины 80-х.

1985 Обратное распространение

Пол Вербос в своей докторской диссертации 1974 года первым предложил использовать обратное распространение для оптимизации нейронных сетей. Однако, поскольку мы были в первую зиму нейронной сети, его работа осталась незамеченной исследовательским сообществом. Только позже, с работой Rumelhart et al. (1986), это обратное распространение было популяризировано как метод обучения нейронных сетей. Вооружившись обратным распространением, исследователи теперь могут использовать нейронные сети во многих случаях. Примечательно, что нейронные сети использовались для распознавания рукописных цифр на основе метода, предложенного в 1989 году Яном Лекуном. Его модель была успешно реализована, в результате чего цифры, написанные от руки, считывались примерно в 10–20% всех чеков, обработанных в США. Тем не менее, вскоре появилась новая проблема, из-за которой обучение стало медленным и нестабильным.

1995 Вторая зима (середина 1990-х — середина 2000-х)

По мере того, как нейронные сети становились глубже (с большим количеством сложенных слоев), обратное распространение становилось медленнее из-за проблемы исчезающих градиентов. Проще говоря, алгоритм обратного распространения требует использования производных (наклонов) функций активации. И в то время использовались в основном сигмовидные и тангенциальные функции активации. К сожалению, их производные близки к нулю, за исключением x ∈ [−1, 1] (как показано ниже). Таким образом, когда вы накладываете несколько слоев, градиентный спуск становится все медленнее и медленнее для более глубоких слоев, что приводит к экспоненциально медленной оптимизации.

2010 Рост глубокого обучения

В 2010-х произошло цунами глубокого обучения.

В начале 2010-х годов многочисленные исследования рекомендовали использовать в нейронах специфическую функцию активации (ReLu) для передачи информации (см. Nair, V. and Hinton, GE (2010)). Это, с лучшими алгоритмами оптимизации (такими как ADAM), помогло эффективно обучать более глубокие нейронные сети.

В 2012 году революция началась с ImageNet Large Scale Visual Recognition Challenge, соревнования по науке о данных для классификации изображений. Команда под руководством Алекса Крижевского (из Университета Торонто) добилась беспрецедентного уровня ошибок в 15,3%, тогда как вторая лучшая модель получила только 26,2%. Крижевский использовал особый тип нейронной сети: сверточные нейронные сети. Более того, он обучил свою сеть с использованием графических процессоров (GPU) вместо традиционных CPU. В 2012 году ни один другой участник не использовал нейронные сети в этой задаче. В следующем году, в выпуске 2013 года, все участники использовали аналогичные нейронные сети.

В 2016 году AlphaGo — искусственный интеллект, разработанный DeepMind, — победил чемпиона мира по го. Компьютеры правили шахматами с 1997 года, после того как Deep Blue обыграли Каспарова в известном матче. Но победить людей в игре Го — гораздо более сложная задача, с примерно 10^170 возможными комбинациями против 10120 в шахматах. Многие эксперты были удивлены этой ранней победой, которая, как ожидалось, должна была произойти только через десять лет. Google приобрел DeepMind в 2014 году более чем за 500 миллионов долларов.

В 2017 году DeepMind выпустила AlphaGo Zero, которая превзошла игры AlphaGo 100 конца 2016 года до 0. AlphaGo Zero потребовалось всего три дня обучения, чтобы достичь этого, научившись играть в го, только соревнуясь с самой собой. В 2017 году DeepMind сообщила, что выплатила 243 миллиона долларов своим 700 сотрудникам. В 2018 году эта сумма увеличилась вдвое.

В 2020 году OpenAI выпустила третью версию ИИ, специализирующегося на создании текстов: GPT3. Этот ИИ может писать стихи, рассказывать истории, решать уравнения, программировать веб-сайты и даже писать статьи о себе. Ранее, в 1950 году, Алан Тьюринг (1912–1946, известный английский ученый-компьютерщик) предложил «тест Тьюринга», чтобы оценить, может ли машина достаточно хорошо имитировать человеческий язык, чтобы ее можно было спутать с человеком. GPT-3 теперь пишет журнальные статьи, которые часто трудно отличить от человеческих. OpenAI, финансируемый Илоном Маском, изначально был некоммерческой организацией. Однако в 2019 году она стала организацией с ограниченной прибылью, ограничив рентабельность инвестиций в сто раз превышающей первоначальную сумму. Вскоре после этого они получили от Microsoft инвестиции в размере 1 миллиарда долларов.

Библиография

Маккалох, В.С. и Питтс, В. (1943). Логическое исчисление идей, имманентных нервной деятельности. Бюллетень математической биофизики, 5 (4): 115–133.

Хебб, Д. О. (1949). Организация поведения: нейропсихологическая теория. Дж. Уайли; Чепмен и Холл.

ЛеКун, Ю., Бозер, Б., Денкер, Дж. С., Хендерсон, Д., Ховард, Р. Э., Хаббард, В., и Джекел, Л. Д. (1989). Обратное распространение применяется к распознаванию рукописного почтового индекса. Нейронные вычисления, 1(4):541–551.

Наир, В. и Хинтон, Г. Э. (2010). Выпрямленные линейные единицы улучшают ограниченные машины Больцмана. В ICML, страницы 807–814.

Нильсен, Массачусетс (2015). Нейронные сети и глубокое обучение. Пресса определения. http://neuralnetworksanddeeplearning.com/chap5.html. Онлайн; по состоянию на 16 августа 2020 г.

Розенблатт, Ф. (1957). Персептрон, воспринимающий и распознающий автомат Project Para. Корнеллская авиационная лаборатория.

Шед, С. (2019). В 2018 году убытки Alphabet от Deep Mind взлетели до 570 миллионов долларов. Forbes. https://www.forbes.com/sites/samshead/2019/08/07/deepmind-lossessoared-to-570-million-in-2018/#4358b1633504. Онлайн; по состоянию на 18 августа 2020 г.

Times, Нью-Йорк (1958). Новое военно-морское устройство учится на практике. Нью-Йорк Таймс. https://www.nytimes.com/1958/07/08/archives/new-navy-device-learnsby-doing-psychologist-shows-embryo-of.html. Онлайн; по состоянию на 16 августа 2020 г.

Винсент, Дж. (2019). Microsoft инвестирует 1 миллиард долларов в OpenAI, чтобы развивать искусственный интеллект. Грань. https://www.theverge.com/2019/7/22/20703578/microsoft-openai-investment-partnership-1-billion-azure-artificial-general-intelligence-agi Онлайн; по состоянию на 18 августа 2020 г.

Вербос, П. (1974). Помимо регрессии: новые инструменты прогнозирования и анализа в поведенческих науках. Кандидатская диссертация, Гарвардский университет.

об авторе

Николас Вандепут — специалист по данным о цепочках поставок, специализирующийся на прогнозировании спроса и оптимизации запасов. В 2016 году он основал свою консалтинговую компанию SupChains, а в 2018 году стал соучредителем SKU Science — быстрой, простой и доступной платформы прогнозирования спроса. с 2014 года преподает прогнозирование и оптимизацию запасов магистрантам в Брюсселе, Бельгия. С 2020 года он также преподает оба предмета в CentraleSupelec, Париж, Франция. Он опубликовал Наука о данных для прогнозирования цепочки поставок в 2018 году (2-е издание в 2021 году) и Оптимизация запасов: модели и симуляции в 2020 году.