С возвращением в Across the Network - еженедельный обзор Lab41 о том, что происходит в мире искусственного интеллекта. Как всегда, это все ссылки, которые я взял из каналов Slack Lab41.

Статьи

Необычайная связь между глубоким обучением и природой Вселенной - это необычайно захватывающее название. Физика → познакомьтесь с Deep Learning. В статье описывается статья, недавно написанная некоторыми профессорами Массачусетского технологического института и Гарварда. Они пытались объяснить, как нейронная сеть с тысячами или миллионами параметров может обобщать задачи (например, распознавание объектов), которые имеют, казалось бы, бесконечное количество возможностей. Математики изо всех сил пытались это объяснить. Но авторы статьи, описанной в этой статье, утверждают, что обнаружили связь - в законах нашей Вселенной. Вы еще не подсели?

Ответ несколько антиклиматический. Авторы считают, что Вселенная не обладает бесконечными возможностями. Если вы посмотрите на физические формулы, вы найдете полиномиальные функции с разными целыми числами в качестве показателя степени (2. 3. 4). Вы не увидите физических явлений, описываемых формулами, в которых показатель степени равен 19. А поскольку вселенная не имеет бесконечных возможностей, это позволяет «маленьким» сетям описывать большие данные.

Машинное обучение со слабым контролем - в этом сообщении блога описывается новый проект с открытым исходным кодом под названием Snorkel, который позволяет исследователям выполнять ненавистную всем задачу - поиск и создание наборов данных - быстро и автоматически создавать помеченные данные. Проблема, как описывают авторы, заключается в том, что аналитиков данных не хватает маркированных данных для создания значимых продуктов. Конечно, существуют гигантские наборы изображений с пометками породы собак или лица, но они не помогают людям в области финансов, здравоохранения или государственного управления, чьи данные требуют глубоких знаний для обработки и маркировки. Snorkel - это объединение набора эвристик или эмпирических правил, созданных экспертами (это называется слабым контролем), в единую модель, способную точно маркировать данные. Помеченные данные, созданные с помощью этого подхода, чрезвычайно эффективны, и их определенно стоит проверить!

Как кампания Хиллари (почти наверняка) использует большие данные - мы стараемся держаться подальше от политики и религии здесь, в Gab41, но это было слишком интересно, чтобы не упомянуть. В связанной статье на сайте Scientific American обсуждается, как в кампаниях используются такие термины, как воодушевление и моделирование убеждения, когда речь идет об избирателях. Это те же самые термины, о которых вы увидите рекламодатели. В последние несколько сезонов политических кампаний наблюдается заметный рост использования аналитики, как из кампаний, так и из источников новостей, которые их освещают (включая мой любимый - Fivethirtyeight).

Статьи

Воровство моделей машинного обучения с помощью API прогнозирования. Допустим, вы исследователь и последние 5 лет вы разрабатывали лучшую в мире модель для идентификации различных типов автомобилей. Вы лучший в мире способ отличить Aston Martin Vanquish от Vantage (не прибегая к чтению задней части автомобиля - что я и делаю).

Вы решаете, что это коммерчески интересный продукт, и начинаете компанию. Вы решаете сделать свой продукт доступным через API, чтобы любой, кому нужны изображения автомобилей с этикетками, мог воспользоваться вашим сервисом. Вам следует пересмотреть свое мнение, по мнению авторов статьи. Они описывают несколько довольно общих атак, которые позволяют пользователю API очень быстро извлекать соответствующую информацию о базовых моделях, которые дают ответы на их запросы. Это довольно интересная работа о негерметичности моделей машинного обучения.

Кстати, если вы работали над классификацией транспортных средств, дайте мне знать.

Неконтролируемая оценка глубины с помощью монокуляра - эта статья выходит за рамки типичных интересов Lab41, но я все же нахожу ее действительно интересной. Проблема, с которой борются авторы данной статьи, - это оценка глубины. Много чернил было потрачено на описание различных методов оценки глубины объектов в изображениях, когда у вас есть несколько изображений (которые обеспечивают перспективу - и, следовательно, помогают в оценке глубины). Новое исследование сосредоточено на том же, но с одним изображением.

Авторы утверждают, что большинство современных подходов к оценке глубины с помощью монокуляра используют таблицы достоверных данных о глубине, которые были изучены ранее. Им не нужно, потому что они могут изучить глубину без присмотра. Вы спросите, в чем их уловка? Они используют бинокулярные камеры. А? Могу поклясться, что в названии статьи было слово монокуляр. Тем не менее, технология, которую они разработали, нова. Они обучают CNN предсказывать или восстанавливать то, что сфотографировала правая камера, используя только левое изображение. Таким образом, эта обученная сеть изучила глубину сцены. Довольно круто.

Ресурсы

15 любимых ресурсов по науке о данных - сотрудники Kaggle составили список своих любимых ресурсов по науке о данных в Интернете. Это довольно хороший список, который мы с радостью порекомендуем вам. Он включает в себя все, от личных блогов до агрегаторов статей и информационных бюллетеней. Со списком есть только одна проблема. Где Габ41 ?!

Неофициальная самоорганизующаяся конференция по машинному обучению. Всеми любимая группа специалистов по искусственному интеллекту в OpenAI проводит свою собственную конференцию. А поскольку они знаменитости ML, их официальная конференция переполнена. Так что они также поддерживают неофициальную конференцию. Так что, если вы хотите узнать, может ли самоорганизующаяся конференция работать и оказаться в районе залива 1 октября, вам следует ее посетить.

Бесстыдные пробки

Моя бесстыдная пробка на этой неделе - за нашего бесстрашного лидера - Боба. Несколько месяцев назад Боб написал на Gab41 статью, которая до сих пор остается самой популярной - Мне нужен AI BS Meter. Да, название было немного кликабельным (но, по крайней мере, это не так - 4 причины, по которым вы должны беспокоиться об ИИ, вы никогда не поверите, № 3!), Но в статье обсуждались источники результатов. Эта концепция доверия к результатам вашей модели нашла отклик у нашей аудитории. Итак, Боб вернулся с новой статьей - Чат-бот? Вы Сириус?

Похоже, что Боб променял клик-приманку в своем названии на каламбуры, но важный вывод состоит в том, что он представляет серьезный вариант того, как вы могли бы построить систему, которая поможет аналитикам и специалистам по обработке данных определить источник результатов. Предлагаю вам взглянуть.

Это все, что у меня есть, но я надеюсь увидеть вас снова на следующей неделе в сети!

Lab41 - это испытательная лаборатория Кремниевой долины, где эксперты из разведывательного сообщества США (IC), академических кругов, промышленности и In-Q-Tel собираются вместе, чтобы лучше понять, как работать с большими данными и в конечном итоге использовать их.

Узнайте больше на lab41.org и подпишитесь на нас в Twitter: @ _lab41