Всем привет, добро пожаловать в Dynamicly Typed #66. Сегодня у меня для вас три ссылки на продукты с искусственным интеллектом и две ссылки на исследования в области машинного обучения. Для первого я написал о новом вспомогательном инструменте Google для дерматологов и его потенциальных проблемах; подробное техническое исследование поиска изображений в Dropbox; и решение Twitter удалить функцию на основе ИИ из своего приложения. Для последнего я связал поток крутых агрегаторов визуальных наборов данных и новый инструмент Google для поиска предвзятости в наборах данных ML.
Произведенный искусственный интеллект 🔌
- 🩺 Google представила свой инструмент помощи дерматологам на базе искусственного интеллекта на ежегодной конференции разработчиков I/O. Приложение, интегрированное с поиском, поможет вам сфотографировать вашу кожу под разными углами, а затем использует модель глубокого обучения, опубликованную в Nature Medicine, чтобы определить одно из 288 состояний кожи. (Посмотрите, как это работает в этом GIF.) Инструмент явно не предназначен для постановки диагноза или замены медицинской консультации. Хотя теоретически это звучит невероятно — доступ в масштабе Интернета к раннему обнаружению, например. рак кожи может стать потрясающим глобальным стимулятором DALY — эксперты высказывают серьезные опасения. Исследователь этического ИИ Google Dr. Алекс Ханна, дерматолог из Стэнфордского университета, Roxanna Daneshjou MD/PhD и вице-журналист Todd Feathers отметили, что, хотя Google утверждает, что протестировал приложение для всех демографических групп, оно не было протестировано в достаточной мере. это касается всех (Фитцпатрик) типов кожи: самые темные типы V и VI — где кожные заболевания уже относительно часто диагностируются ошибочно — были сильно недопредставлены в наборе данных. Приложение еще не запущено, и представитель Google Health Джонни Луу сообщил Vice, что набор данных был расширен после публикации статьи Nature, но эта проблема должна быть должным образом решена, прежде чем приложение можно будет ответственно запустить. . Я был бы разочарован, увидев, что он запущен без хотя бы Технического описания и Карты модели, объясняющих его ограничения.
- 🔦 Томас Верг написал для блога компании Как работает поиск картинок в Dropbox. Их алгоритм использует комбинацию классификации изображений для извлечения из фотографий релевантных меток в стиле ImageNet (например, пляж или хот-дог) и векторов слов для сопоставления неточных условий поиска с этими метками (например, берег или бутерброд. »»). Остальная часть поста достаточно подробно описывает производственную архитектуру и оптимизацию масштабируемости при развертывании алгоритма. Всегда приятно видеть эти подробные технические описания функций искусственного интеллекта от компаний-производителей!
- 🐦 Немного отличается от обычного в DT: ниже приведен хороший пример удаления функции на основе ИИ из продукта. В конце прошлого года пользователи Twitter начали замечать, что алгоритм обрезки фотографий в приложении (который решает, какую часть изображения показывать в качестве предварительного просмотра на временной шкале) казалось, отдавал предпочтение белым лицам, а не черным. Простой алгоритм заметности не ищет конкретно лица, а пытается предсказать, какую часть изображения пользователь увидит в первую очередь, и никто не подумал проверить его на предмет этой предвзятости. Twitter теперь решил проблему, больше не обрезая изображения, вместо этого полностью отображая изображения со стандартным соотношением сторон (что, как я думаю, в любом случае лучше). Директор по разработке программного обеспечения Румман Чоудхури написал отличный пост в блоге о том, как компания справилась с этим. выпуске, включая детали собственного (открытого) исследования, подтвердившего предвзятость алгоритма. Один из наших выводов заключается в том, что не все в Твиттере является хорошим кандидатом для алгоритма, и в этом случае решение о том, как обрезать изображение, лучше всего принимают люди.
Исследования в области машинного обучения 🎛
- ⚡️ Google запустил Знай свои данные, новый инструмент, который помогает исследователям, инженерам, командам по разработке продуктов и лицам, принимающим решения, понимать наборы данных с целью повышения качества данных и устранения проблем с справедливостью и предвзятостью. Он включает в себя более 70 существующих наборов данных изображений, для которых инструмент может найти поврежденные данные, конфиденциальные объекты, пробелы в покрытии и проблемы с балансом. Это выглядит как солидный технический шаг к более справедливому и надежному машинному обучению.
- ⚡️ В ответ на объявление о том, что NeurIPS 2021 будет иметь трек наборов данных (круто!), Сирил Диань написал тред в Твиттере, посвященный некоторым из его любимых источников общедоступных наборов визуальных данных, включая Kaggle (646 наборов данных компьютерного зрения ), Visual Data (527 наборов данных) и Bifrost (1900 наборов данных). Отличный источник вдохновения для проекта!
Я также собрал все более 80 исследовательских инструментов машинного обучения, которые ранее были представлены в Dynamically Typed на странице понятий для быстрого ознакомления. ⚡️
Спасибо за прочтение! Если вам понравился этот выпуск Dynamically Typed, рассмотрите возможность подписаться, чтобы получать новый выпуск прямо на ваш почтовый ящик каждое второе воскресенье.
Первоначально опубликовано 9 мая 2021 г. на странице https://dynamicallytyped.com.