Публикации по теме big-data

Публикации по теме 'big-data'

Установка Hadoop и Mahout в Ubuntu 16.04 и 18.04

Após muitos testes mal sucedidos e ver diversos tutoriais incompletos, escrevo esse post para documentar o resultsado da minha pesquisa em sites e livros. É Importante Dizer Que instalação tratada aqui é uma instalação básica e support apenas o inicio de Experimentações e Testes. Чтобы установить приложение Hadoop, достаточно просто пройти через псевдо-распределенный кластер Hadoop, который не может быть выполнен в полной мере после того, как он будет использован для развития для..

Следующий рубеж в аналитике больших данных

Межотраслевая аналитика и три ее столпа В нашем мире данные повсеместны, но их маржинальная отдача уменьшается. Дополнительные данные не обязательно переводятся в новую информацию, фактически, иногда они могут служить только для повторения существующих предубеждений. Так где же нам искать лучшие, новые, удивительные идеи? Выход за рамки отраслевой разрозненности - это следующий рубеж для получения ценной информации. Что касается данных о потребителях, то тонкий факт, который..

Использование интеллектуального анализа данных с цифровой криминалистикой

Цель интеллектуального анализа данных — найти структуру вокруг неструктурированных данных и извлечь все значимое из того, что называется «зашумленными данными». Интеллектуальный анализ данных используется для обнаружения шаблонов, которые выявляют тенденции и корреляции, которые используются во многих отраслях. Бизнес, технологии, здравоохранение и даже правоохранительные органы используют интеллектуальный анализ данных, чтобы помочь прогнозировать тенденции в конкуренции, а также поведение..

Извлекайте значимую информацию из больших данных с помощью НЛП и машинного обучения

Чаще всего системы ИИ подвергаются воздействию большого количества разнообразной информации, такой как голос человека, изображения с текстовым содержимым, необработанные документы, такие как статьи в НОВОСТЯХ, и т. Д. Для того, чтобы воздействовать на эту неструктурированную форму информации (данных), ИИ должен выполнять один из важнейших процессов, называемый извлечением информации (IE). Извлечение информации - это процесс извлечения ключевой информации, связанной с неструктурированными..

Разделение Train Test со Sklearn

После того, как вы закончили с мантингом и выбором функций. Вы захотите разбить свои переменные X и y на отдельные обучающие и тестовые сплит-наборы. Мне нравится делать это в альтернативном блокноте Jupyter, помеченном как предварительная обработка. Эти разбиения представляют собой фрагменты ваших данных, которые будут использоваться для определения обобщаемости вашей модели. Набор поездов представляет данные, которые ваша модель будет использовать для обучения. Набор тестов..

DevOps - бессерверный конвейер OCR-NLP с использованием Amazon EKS, ECS и Docker

Как мы смогли автоматически масштабировать конвейер оптического распознавания символов, чтобы конвертировать тысячи PDF-документов в текст в день, используя управляемую событиями архитектуру микросервисов на базе Docker и Kubernetes В недавнем проекте нас пригласили создать конвейер, который может преобразовывать документы PDF в текст. Входящие документы PDF обычно имеют размер 100 страниц и могут содержать как машинописный, так и рукописный текст. Эти PDF-документы были загружены..

10 удивительных статей о программировании на Python и машинном обучении, неделя 2

На этой неделе в 10 наших лучших статьях о Python есть Pytorch, Michelangelo PyML, деревья решений и многое другое! Мы больше сосредоточились на поиске статей по таким темам, как машинное обучение и наука о данных, и надеемся, что они вам понравятся так же, как и нам! Стохастическое усреднение веса в PyTorch В этом блоге мы описываем недавно предложенную технику стохастического усреднения (SWA) [1, 2] и ее новую реализацию в torchcontrib . SWA - это простая процедура, которая улучшает..