Объем последовательности: борьба с зависимостями помеченных наборов данных

Еженедельный информационный бюллетень с более чем 100 000 подписчиков, в котором обсуждаются важные исследовательские работы по машинному обучению, крутые технические выпуски, деньги, полученные от ИИ, и реальные реализации.

TheSequence
Подпишитесь, чтобы быть в курсе самых актуальных проектов и исследовательских работ в мире искусственного интеллекта. Нам доверяют 102 000 +… thesequence.substack.com

📝 От редакции: борьба с зависимостями помеченных наборов данных

За последние несколько десятилетий в мире машинного обучения (ML) доминирует контролируемое обучение. Преобладание моделей с учителем в основных приложениях машинного обучения кажется логичным, учитывая, что их легче моделировать, интерпретировать и оптимизировать, чем альтернативы без учителя. Однако контролируемые модели машинного обучения имеют большое ограничение в виде зависимости от больших помеченных наборов данных, создание и обслуживание которых очень дороги. Зависимость от помеченных данных не только технологическая, но и экономическая, поскольку она сделала исследования машинного обучения привилегией крупных организаций с доступом к тщательно подобранным наборам данных. К этому мы должны добавить, что парадигмы контролируемого обучения не особенно хороши для обобщения нескольких задач. Неуклонное снижение уровня надзора в моделях машинного обучения - одна из важнейших задач в следующем десятилетии машинного обучения. Индустрия машинного обучения осознает это и делает большие успехи.

В последние несколько лет наблюдается бурный рост исследований и усилий по внедрению, направленных на уменьшение зависимости от помеченных наборов данных. От предварительно обученных моделей до полу- и самоконтролируемых парадигм обучения мы регулярно видим, как модели с небольшим контролем соответствуют и превосходят контролируемые альтернативы в различных областях, таких как компьютерное зрение, язык, речь и многие другие. Буквально на этой неделе Facebook и Salesforce представили результаты исследований, в которых используются более мягкие формы контроля в таких областях, как анализ речи и генерация кода соответственно. В ближайшие несколько лет мы, вероятно, увидим переход этих типов моделей от исследовательских усилий крупных лабораторий ИИ к основным приложениям машинного обучения.

🗓 На следующей неделе в TheSequence Edge:

Грань № 123: мы начинаем новую серию статей о самообучении; обсудить доклад «Самостоятельное обучение, темная материя искусственного интеллекта»; изучите VISSL, платформу для самостоятельного обучения компьютерному зрению.

Край №124: мы подробно рассказываем об обновлениях платформы Pachyderm.

🔎 Исследования машинного обучения

Анализ кода

Salesforce Research опубликовала документ с подробным описанием кода T5, предварительно обученной модели языка программирования, которая обеспечивает высочайшую производительность в 15 задачах анализа кода -› подробнее в блоге Salesforce Research

Бестекстовое НЛП

Facebook AI Research (FAIR) опубликовал документ, в котором представлена генеративная модель, которая может решать задачи НЛП с использованием необработанных аудиофайлов практически на любом языке -› подробнее в блоге FAIR

Модели распознавания речи при нарушении речи

Google Research выпустила две статьи и набор данных с открытым исходным кодом, чтобы стимулировать внедрение моделей распознавания речи, которые могут работать для людей, страдающих нарушениями речи -› подробнее в блоге Google Research

🛠 Реальный мир ML

Масштабирование Hadoop YARN в LinkedIn

Группа инженеров LinkedIn опубликовала сообщение в блоге с подробным описанием архитектуры, используемой для масштабирования инфраструктуры Hadoop YARN за пределы 10 000 узлов -› подробнее в блоге LinkedIn

Uber Jellyfish

Компания Uber Engineering опубликовала сообщение в блоге, в котором подробно описывается архитектура, лежащая в основе ее бессхемной инфраструктуры хранения данных под названием Jellyfish -› подробнее в блоге инженеров Uber

🤖 Крутые релизы AI Tech

JetBrains DataSpell

JetBrains объявила о выпуске DataSpell, новой среды IDE, оптимизированной для программ обработки данных -› подробнее в блоге JetBrains

Плагин AWS S3 для PyTorch

Amazon выпустила плагин S3 для PyTorch, который позволяет использовать сегменты данных S3 в наборах данных PyTorch -› подробнее в блоге разработчиков AWS

TensorFlow Lite и XNNPACK

TensorFlow представил расширенную интеграцию с XNNPACK для более быстрых квантованных моделей логического вывода -› подробнее в блоге TensorFlow

💸 Деньги в AI

Стартап по базам данных SingleStore привлек 80 миллионов долларов в рамках финансирования серии F под руководством Insight Partners. Найм в США / Португалии / Удал.
Аппаратная и программная платформа квантового управления Quantum Machines привлекла раунд серии B на сумму 50 миллионов долларов, возглавляемый Red Dot Capital Partners. Найм в основном в Израиле.
Стартап в области разговорного ИИ PolyAI привлек 14 миллионов долларов в рамках раунда финансирования, проводимого Khosla Ventures из Кремниевой долины. Найм в США и Великобритании.
Платформа обучения компьютерному зрению Mobius Labs привлекла финансирование на сумму ~ 6,1 миллиона долларов во главе с Ventech VC. Найм в Берлине.
Платформа анализа взаимоотношений Affinity привлекла финансирование серии C на сумму 80 миллионов долларов, возглавляемую Menlo Ventures. Найм в Сан-Франциско / Торонто / Remote.
Стартап по охране здоровья женщин Flo, ориентированный на фертильность, собрал раунд серии B на сумму 50 миллионов долларов, совместно с VNV Global и Target Global. Найм по всему миру.
Платформа по анализу работы Fin привлекла 20 миллионов долларов в рамках серии A финансирования, возглавляемой Коутю. Найм в США.
Платформа виртуальных встреч Vowel собрала 13,5 миллионов долларов в раунде серии A, проводимом Lobby Capital. Найм удаленный.