Зачем использовать Машинное обучение, когда традиционное программирование решило так много бизнес-задач? Мы обсудим, как это помогает и почему машинное обучение процветает ниже:
- Существуют определенные варианты использования, такие как спам-фильтр, где традиционное программирование затруднено. А также реальное использование машинного обучения, то есть когнитивных задач, таких как распознавание изображений, обработка речи, обработка естественного языка (NLP) и так далее. Эти задачи чрезвычайно сложны и зависят от данных, и их решение с использованием правил было бы кошмаром. Таким образом, увеличение сложности и проблемы, связанные с данными, являются ключевыми областями, в которых машинное обучение может процветать. Например, у нас есть модели NLP, которые могут писать целые сценарии фильмов, модели обработки изображений, которые могут раскрашивать старые черно-белые изображения, и так далее.
- Еще одним движущим фактором машинного обучения является бум данных. Генерация данных является экспоненциальной. По оценке Statista, в самом 2019 году создается около 41 зеттабайта данных. Для сравнения, если вы смотрите фильм в формате Full HD (1024p, примерно 2 часа) на Netflix, вам потребуется около 8 ГБ данных. Таким образом, в 2018 году созданные данные эквивалентны примерно 5000 миллиардам таких фильмов. Это много данных. И, как я упоминал ранее, проблемы с машинным обучением — это проблемы, связанные с данными. Таким образом, это помогает намного лучше обобщать модели. Обобщение в машинном обучении означает, как модель работает с новыми невидимыми данными; это то, насколько общая модель должна работать даже с различными примерами, наполненными шумом. И это также дает еще одно ключевое преимущество машинного обучения по сравнению с человеческим; мы не можем понять данные в таком масштабе, даже в гигабайтах, не говоря уже о зеттабайтах. Таким образом, машинное обучение в определенных случаях использования больших данных помогает людям учиться или делать выводы. Например, машинное обучение может позволить нам увидеть скрытые зависимости/корреляции в, казалось бы, несвязанных данных. Одним из примеров, который я могу вспомнить, является история о корреляции пива и подгузников / городская легенда. Согласно этой истории, Wal-Mart, ведущая мировая розничная сеть, якобы обнаружила корреляцию между продажами пива и подгузников в пятницу вечером, используя свои данные о транзакциях. Этот вид изучения ассоциации между продуктами из данных о транзакциях называется изучением/анализом правил ассоциации. История предполагает, что молодые люди совершают последний рывок за пивом в пятницу вечером, а их жены просят их купить подгузники для их детей. Согласно этой истории, Wal-Mart воспользовалась этой ассоциацией и объединила два таких продукта. Это создало забавный мем о детях, держащих пивные бутылки. Хотя эта история считается фальшивкой, анализ ассоциативных правил является правдой. Вы можете видеть это во время рекомендаций Amazon по продуктам, купленным вместе. И есть случаи использования в генной инженерии, когда ученые используют машинное обучение для выявления генов, связанных с доминирующими расстройствами. Вы можете прочитать больше об этом в статье под названием «DOMINO: Использование машинного обучения для прогнозирования генов, связанных с доминантными расстройствами Матье Кинодоза и др.
- Улучшение и доступность вычислений — еще один движущий фактор машинного обучения. У нас сейчас много вычислительной мощности. Кроме того, они дешевле. В настоящее время мы можем найти мощный графический процессор дешево. А у кода машинного обучения есть потенциал для параллельной обработки и использования большого количества ядер, присутствующих в графических процессорах. Даже вы можете бесплатно получить общий графический процессор (даже TPU) с помощью Google Colab. Таким образом, не имея большого количества настроек вычислительной инфраструктуры, вы все равно можете заниматься машинным обучением.
Надеюсь, это было полезно.