Мифы о машинном обучении

Машинное обучение — одна из самых горячих тем для обсуждения в настоящее время. Он находит свое применение во многих ранее неожиданных областях, и мы видим множество устройств или сервисов, которые начинают использовать инструментарий машинного обучения для повышения производительности и новых функций. С другой стороны, многие люди боятся этой технологии и предсказывают скорое вторжение ИИ, когда все человечество окажется под игом рабства. В этой статье я хочу обсудить текущее состояние возможностей ML, что он действительно может и чего не может делать на данный момент, действительно ли он неуправляем и есть ли шанс нормально жить в будущем.

Данные изображения

С 2012 года распознавание изображений AlexNet сделало огромный шаг вперед, и теперь оно может достигать ранее невероятных результатов.

Что возможно: Сегодня мы можем точно обнаруживать объекты случайного типа в режиме реального времени, генерировать новые изображения с заранее заданными свойствами, анализировать видеоданные и так далее, и что самое главное, вы можете найти эти приложения в своем повседневная жизнь. Например, распознавание лиц включено практически во все современные мобильные телефоны. Многие правительства начинают использовать эту технологию для контроля преступлений с автоматическим обнаружением. Пару лет назад DeepFake наделал много шума, и некоторые его результаты были потрясающими. Также людей можно обнаружить не только по их лицу, но и по их движениям или другим неожиданным данным. Есть модели, которые помогают врачам выявлять болезни на рентгенограммах или ультразвуковых снимках. Благодаря трансферному обучению хорошие модели можно обучать даже при недостатке вычислительной мощности с использованием предварительно обученных моделей. На мой взгляд, обработка изображений — одна из самых футуристических технологий машинного обучения.

Что невозможно:несмотря на выдающееся качество, распознавание изображений можно легко обмануть, например, вы можете добавить что-то вроде CAPTCHA на свое лицо, и оно не будет узнаваемо. У DeepFake те же проблемы, что и у Photoshop, но умноженные на 10: одни кадры идеальны, а на других видно, что лицо приклеено к телу. Более того, сделать DeepFake видео в реальном времени пока невозможно, так что можете быть спокойны, когда разговариваете с другом в видеочате, это все же он. Но, как я уже говорил ранее, кажется, что распознавание изображений может сделать больше, чем не может.

НЛП

Текстовые данные очень важны в нашем мире. Большая часть человеческих знаний хранится в текстах, и самая быстрая новая информация также поступает в текстовом формате. Также оптимизация в обработке текста дает много преимуществ в бизнес-задачах, потому что машины определенно могут работать быстрее в этой области. Вот почему сегодня технологии НЛП вызывают большой интерес.

Что возможно:с современными моделями можно генерировать новые тексты, анализировать огромные объемы данных, переводить между несколькими языками, делать автодополнение, проверять грамматику, преобразовывать сложные предложения в более читаемые, персонализировать статьи и т. д. , приложения ограничены только воображением. 5–10 лет назад сети LSTM могли генерировать блоки текста с заданным стилем, но после предложения архитектуры Transformer область начала быстро развиваться. Сегодня такие сети, как GPT или BERT, могут выводить большие блоки удобочитаемого текста, даже блоги на Reddit, хотя никто этого не понимает. Google Translate — хороший пример модели Seq2Seq, которой ежедневно пользуются миллионы людей, и качество перевода улучшается.

Что невозможно:На самом деле НЛП кажется очень многообещающим, но человеческий мозг все еще преобладает. Профессиональные лингвисты сделают перевод намного лучше, чем самые продвинутые модели, поэтому Google Translate может помочь, но он не может правильно перевести всю книгу или даже статью, особенно когда в ней много грамматических ошибок. Автоматически сгенерированный текст местами выглядит нормально, но в целом плохо читается и содержит много логических ошибок. Он должен быть исправлен (читай перезаписан) человеком. Также ученые не в состоянии заставить ИИ писать осмысленные новые идеи, текущие модели представляют собой компиляцию только обучающих данных, и эти модели могут писать только текст, «похожий» на обучающий. Даже при всех недостатках, описанных выше, ИИ значительно превосходит людей по скорости обработки.

Аудио

Здесь я хочу поговорить обо всей аудиоинформации, такой как распознавание речи, генерация музыки и т. д. Честно говоря, методы работы с аудиоданными очень похожи на текстовые, по своей природе — они оба являются временными рядами. Также здесь работают некоторые инструменты обработки сигналов, такие как преобразование Фурье или денозирование.

Что возможно: Как вы, возможно, видели на своем мобильном телефоне, ИИ может произносить тексты, а также поддерживать разговор с пользователем, и это будет звучать как непрерывная речь. Кроме того, он может обнаруживать источники звука или скрывать ненужные шумы. Более того, OpenAI показал, как можно генерировать музыку с помощью машинного обучения, они синтезировали классические музыкальные произведения с помощью преобразователя в стиле GPT-2, и эти образцы звучат довольно хорошо.

Что невозможно: Вы все еще можете изменить искусственный голос и настоящий. Распознавание речи улучшается, но ошибок много, а диктовать большие блоки текста сложно. Музыка человека звучит лучше, чем сгенерированная, и вас вряд ли можно вдохновить. Вообще говоря, области применения интересны, однако качество должно быть повышено для реального использования.

Обучение с подкреплением

Что ж, если вы боитесь ИИ, то теперь вы столкнулись с настоящим источником всех мифов и легенд о злых роботизированных существах. В этой области МО ученые пытаются научить системы узнавать новое и находить собственные решения. В начале обучения модель не знает правильного вывода, но у нее есть обратная связь, которая дает некоторое вознаграждение. Эта схема идентична нашему собственному процессу обучения, когда человека помещают в какую-то среду, не зная, что правильно, а что неправильно, однако у человека есть свои естественные сенсоры, такие как зрение, обоняние, логика, чувство боли, и он пытается решить заданные ребусы.

Что возможно: Самый известный случай с RL — турнир по Dota2, когда модель в реальном времени обыграла профессиональных игроков в игре один на один, а затем выиграла многопользовательские раунды. Dota2 — не единственная игра, в которой RL показывает многообещающие результаты: на сайте тренажерного зала можно найти массу примеров. Тренажерный зал — это набор различных сред с предопределенными состояниями и наградами, и пользователи загружают свои решения, и некоторые из них выглядят невероятно. Также Unity создала собственных 3D-агентов для обучения сложных моделей. Эти агенты умеют решать простые игры, ездить на виртуальных машинах, учиться передвигаться с помощью сложных устройств или даже учиться ходить собственными частями тела, общаться с другими агентами, находить групповые решения или играть в такие игры, как прятки. OpenAI показал, как научить одного человека, как роботизированную руку, собирать кубик Рубика из нулевого состояния (когда он вообще не знает, как двигаться). Все эти иллюстрации дают нам надежду, что вскоре наше общение с машинами кардинально изменится, они станут намного умнее и обретут какой-то ум.

Что невозможно: современные методы RL очень сложно обучать, среда должна иметь конечное число состояний, а небольшая случайность в данных может испортить всю модель. Пока готовил эту статью, я не нашел применения модели RL в реальных играх или бизнес-процессах. Также производители автомобилей избегают использовать его в решениях для автопилота, потому что результаты непредсказуемы, а модель генерирует много выбросов или сумасшедших действий, кроме того, очень важно обучать модель на реальных автомобилях, это стоит целое состояние.

Машинное обучение — одно из самых перспективных направлений науки на сегодняшний день. Он постоянно меняет наш мир и от него невозможно спрятаться. Но люди по-прежнему имеют полный контроль над новыми технологиями, направляя инновации во благо. Таким образом, даже если будущее Скайнета возможно, оно едва ли заметно при нынешнем состоянии машинного обучения.