Эти протоколы будут определять будущее. Убедитесь, что вы владеете ими

Чтобы помочь мне понять вас, заполните этот опрос (анонимно)

Машинное обучение развивается с сумасшедшей скоростью. Придумываются тонны новых идей и процедур. Всего два года назад мультимодальное обучение (обучение моделей машинного обучения с вводом текста, изображений, звуков и видео) было очень нишевой идеей. Теперь разные публикации от Google AI и Deepmind вбили эту мысль всем в голову.

Изучив массу исследований, технических публикаций и пообщавшись с экспертами, я обнаружил множество повторяющихся идей, которые во многом проявляются в разрабатываемых ценных решениях. В этой статье я поделюсь с вами этими идеями, чтобы вы могли вооружиться одними из самых эффективных/мощных идей в ML.

1: Пары кодер-декодер

Это одна из тех идей, которую часто упускают из виду, когда мы обсуждаем потрясающие решения для машинного обучения. На первый взгляд, это очень простая для понимания концепция. Кодировщики принимают ваш ввод и кодируют его в скрытое пространство. Декодер берет векторы из скрытого пространства и преобразует их обратно. Это делает их естественным образом подходящими для задач обработки языка, где они добились большого успеха.

Когда вы читаете о крупномасштабных решениях машинного обучения, таких как Language Transcoder Facebook, Language Translation, Text Reconstruction и Large Language Models, мы замечаем пары Encoder-Decoder, используемые в обработке. Однако на этом их полезность не заканчивается.

Это можно использовать различными способами в Computer Vision. Яркими примерами являются состязательное обучение, реконструкция, хранение изображений и генерация. Это также играет решающую роль в DALL-E. Мы берем текстовый ввод и кодируем его в скрытое пространство. Затем мы можем взять декодер, который декодирует скрытые векторы в изображение. Вот как мы можем генерировать изображения из текстовых описаний. Facebook AI Make-A-Scene: генерация текста в изображение на основе сцены с человеческими априорами.

Их эффективность сводится к их простоте. Идея, лежащая в основе взятия входных векторов и представления их в скрытом пространстве, является обманчиво мощной концепцией. Его можно применять для связывания связанных концепций из разных областей, придавая им непревзойденную универсальность. Вышеупомянутые публикации Deepmind и Google AI намекают на то, что мультимодальное обучение может быть ключом к AGI. В этом случае пары кодер-декодер будут играть важную роль. Я расскажу об этом более подробно, поэтому обязательно свяжитесь со мной, используя ссылки в конце этой статьи.

2: Внимание

С появлением больших языковых моделей и преобразователей мы можем теперь сказать, что механизм внимания был революционным. Механизм внимания в Трансформерах позволяет им выделять важные части предложения. Внимание позволяет Transformers отфильтровывать шум и фиксировать отношения между словами, даже если они находятся далеко друг от друга.

Все уже знают это в контексте НЛП. Чего я не знал, так это того, что это верно даже для CV. Механизм внимания позволяет трансформерам сохранять «глобальное представление изображения», что позволяет им извлекать функции, сильно отличающиеся от ConvNets. Помните, что CNN используют ядра для извлечения признаков, что означает, что они находят локальные признаки. Внимание позволяет Трансформерам обойти это.

Картинка выше взята из очень интересной статьи Видят ли Vision Transformers Like Convolutional Neural Networks? Это настолько интересно, что я сделаю разбивку этой статьи позже. Важным аспектом является следующая цитата, также из статьи.

… демонстрация того, что доступ к более глобальной информации также приводит к количественно другим функциям, чем те, которые вычисляются локальными рецептивными полями на нижних уровнях ResNet

3: Случайный лес

Теперь я знаю, что некоторые из вас очень сбиты с толку, увидев это здесь. Случайные леса — это классическая модель машинного обучения. Они находятся рядом с логистической регрессией, наивным байесовским и KNN в качестве ваших первых моделей. Так почему же они упоминаются в списке современных техник?

Радиочастотные классификаторы и регрессоры настолько устарели, насколько это возможно. Истинный. Но идея RF развилась во множество других методов. Случайные леса можно эффективно использовать в задачах, включающих:

  1. Обнаружение выбросов
  2. Разработка функций
  3. Важность функций, понижение дискретизации и выбор
  4. Вменение данных

RF удивительны, потому что их универсальность делает их мощными. Они устойчивы к выбросам, могут работать с пропущенными значениями и идеально подходят для беспорядочных наборов данных. В моей статье Как обращаться с отсутствующими данными об окружающей среде я показываю, как эти свойства идеально подходят для работы с разнообразными наборами данных.

4: Случайность

Если вы один из моих первых последователей, вы знаете, что я большой поклонник введения шума и случайности в ваше обучение машинному обучению. Я подчеркивал это уже некоторое время назад, когда это не было таким мейнстримом. В наши дни все крутые ребята делают это.

Случайность может изменить правила игры, если вы хотите создать модели, которые можно обобщить для многих распределений. Наряду с этой шумной тренировкой есть потенциальные преимущества для состязательной подготовки. В этой статье подробно рассматривается Эффективное использование случайности в глубоком обучении.

5. Сверточные нейронные сети

Это классика, но она упоминается здесь не зря. CNN просты, интуитивно понятны и могут иметь отличную производительность. Хотя они специализируются на задачах компьютерного зрения, они являются королями в этой области. Мне не нужно сидеть здесь и говорить о том, насколько прекрасны CNN. Это было бы пустой тратой времени каждого.

Что часто упускается из виду, когда мы обсуждаем ConvNets, так это их способ автоматического извлечения функций с использованием ядер. Мы знаем, что функции будут улучшать или разрушать производительность модели. Поскольку чрезвычайно крупномасштабное машинное обучение становится все более распространенным, важность хорошей предварительной обработки станет отличительным фактором. Освоение методологий извлечения признаков CNN сослужит вам очень хорошую службу.

6: ГАН

Недавно философия GAN немного возродилась. Точнее, мы видели несколько революционных технологий, реализующих архитектуру GAN. Это вернуло эту идею в «народный» дискурс. Идея обучения двух моделей с противоположными целями путем их противопоставления друг другу приводит к феноменальным результатам.

Это выходит далеко за рамки традиционных GAN. GAN основаны на сочетании дискриминационных и генеративных учащихся. Мы можем комбинировать эти две техники различными способами, чтобы получить исключительные результаты. В этих случаях мы можем внедрить Evolutionary Learners, что позволит вам достичь исключительных результатов, например, с Проектом Женева.

Это все для этой статьи. Естественно, мастерство в области машинного обучения имеет решающее значение для того, чтобы по-настоящему использовать эти мощные идеи. Эта статья дает вам пошаговый план развития навыков машинного обучения с использованием БЕСПЛАТНЫХ ресурсов. В отличие от других учебных лагерей/курсов, этот план поможет вам развить базовые навыки и настроить себя на долгосрочный успех в этой области.

Для машинного обучения крайне важна база в области разработки программного обеспечения, математики и компьютерных наук. Это поможет вам концептуализировать, построить и оптимизировать машинное обучение. Мой ежедневный информационный бюллетень Простые интервью по программированию охватывает темы проектирования алгоритмов, математики, последних событий в области технологий, разработки программного обеспечения и многого другого, чтобы помочь вам стать лучшим разработчиком. Сейчас действует скидка 20 % на ЦЕЛЫЙ ГОД, так что не забудьте проверить ее.

Я создал Coding Interviews Made Simple, используя новые методы, полученные благодаря обучению нескольких людей в ведущих технологических фирмах. Информационный бюллетень предназначен для того, чтобы помочь вам добиться успеха, избавив вас от часов, потраченных впустую на работу с Leetcode. У меня есть политика 100% удовлетворения, поэтому вы можете попробовать ее без риска для себя. Вы можете прочитать FAQ и узнать больше здесь

Не стесняйтесь обращаться, если у вас есть какие-либо интересные работы/проекты/идеи для меня. Всегда рад вас выслушать.

Для денежной поддержки моей работы следуют мои Venmo и Paypal. Любая сумма приветствуется и очень помогает. Пожертвования открывают эксклюзивный контент, такой как анализ бумаги, специальный код, консультации и специальные тренировки:

Венмо: https://account.venmo.com/u/FNU-Devansh

Paypal: paypal.me/ISeeThings

Свяжитесь со мной

Воспользуйтесь ссылками ниже, чтобы ознакомиться с другим моим контентом, узнать больше о репетиторстве или просто поздороваться. Кроме того, ознакомьтесь с бесплатной реферальной ссылкой Robinhood. Мы оба получаем свободный сток (денег вкладывать не надо), и никакого риска для вас нет. Таким образом, если вы не используете его, вы просто потеряете бесплатные деньги.

Ознакомьтесь с другими моими статьями на Medium. : https://rb.gy/zn1aiu

Мой Ютуб: https://rb.gy/88iwdd

Свяжитесь со мной в LinkedIn. Подключаемся: https://rb.gy/m5ok2y

Мой Инстаграм: https://rb.gy/gmvuy9

Мой Твиттер: https://twitter.com/Machine01776819

Если вы готовитесь к программированию/техническим интервью: https://codinginterviewsmadesimple.substack.com/

Получите бесплатный сток на Robinhood: https://join.robinhood.com/fnud75