Публикации по теме computer-vision

Публикации по теме 'computer-vision'

Объяснение статей 12: LiLT

Всю структуру можно рассматривать как параллельный двухпоточный преобразователь. При входном изображении документа сначала используется готовый механизм OCR для получения текстовых ограничивающих рамок и содержимого. Затем информация о тексте и макете отдельно встраивается и передается в соответствующую архитектуру на основе Transformer, чтобы получить расширенные функции. Двунаправленный механизм комплементарного внимания (BiACM) введен для обеспечения межмодального взаимодействия..

Снижение требований к помеченным данным (в 2–5 раз) для глубокого обучения: новая функция Google Brain "Contrastive

Текущее глубокое обучение для зрения, звука и т. Д. Требует огромных объемов данных, помеченных людьми, с множеством примеров каждой категории, чтобы правильно обучить классификатор с приемлемой точностью. Напротив, людям нужно увидеть лишь несколько примеров класса, чтобы начать правильно и точно распознавать и классифицировать будущие примеры этого класса. Разница в том, что люди способны быстро создавать точные мысленные «представления» о вещах, а затем использовать эти..

Ваш набор текста отстой больше, чем ваш пылесос !!

Добро пожаловать в очередной неуместный и безумный проект ( * эй, эй, это важно, хорошо!! ). После успешного запуска ( * я считаю, что это был сумасшедший хит ) печально известного T-Man ( * ваш Tinder Wingman с искусственным интеллектом ), если вы еще не читайте , идите читайте (* пожалуйста, мне нужно больше просмотров) T-Man . Приветствую вас в Protyper . (* В драматической сцене) Вы когда-нибудь чувствовали, что печатание отстойнее вашего пылесоса? И если печатание было..

Обнаружение автомобилей на больших площадях с помощью YOLT и открытых аэрофотоснимков Занзибара

Обнаружение автомобилей на больших территориях с помощью YOLT и открытых аэрофотоснимков Занзибара В сочетании с набором данных SpaceNet и серией задач, направленной на демократизацию данных спутниковых снимков и поощрение разработки целевых алгоритмов, одна из целей команды CosmiQ - поддержать картографическое сообщество с открытым исходным кодом. С этой целью CosmiQ принимает участие в конференции FOSS4G в Дар-эс-Саламе, Танзания. FOSS4G - это крупнейшее ежегодное глобальное..

Новые возможности Infinity API

Мы рады объявить о новых функциях Infinity API, основанных на отзывах наших партнеров по дизайну. Было здорово, что так много команд используют наши синтетические данные как часть разработки своего продукта. Если вы также заинтересованы в опробовании синтетических данных, мы приглашаем вас подписаться на бесплатный API или забронировать обзорный сеанс , где мы можем поговорить о вашем приложении. Напоминаем, что Infinity API дает вам возможность генерировать точные обучающие данные..

Учебные данные для обработки естественного языка

Произносимые слова, которые вы используете при регулярном общении с другими людьми, известны как естественный язык. Еще недавно машины не могли этого понять. Однако специалисты по данным уже работают над системами искусственного интеллекта, способными понимать естественный язык, открывая двери для огромного потенциала и будущих достижений. Что такое обработка естественного языка? Программное обеспечение с возможностями обработки естественного языка (NLP) может читать, понимать,..

Создание масштабируемого конвейера машинного зрения

Раньше считалось, что если пин никогда раньше не сохранялся в Pinterest, мы не могли предоставить рекомендации по связанным пинам. Это связано с тем, что связанные пины в основном генерировались путем обхода локального «графа курирования», трехстороннего графа «пользователь-доска-изображение», который органически эволюционировал в результате человеческого курирования. В результате пины с «длинным хвостом» или пины, которые лежат на окраинах этого графа курирования, имеют так мало соседей,..