Публикации по теме big-data

Публикации по теме 'big-data'

С ИИ и данными это «мусор на входе, мусор на выходе»

На недавнем сеансе исправления мы помогли Брайану Хэнки проанализировать данные от кредитной компании до зарплаты, чтобы определить, какие факторы предсказывают погашение кредита в рамках практического курса ИИ, который мы создаем , я столкнулся с концепцией очистки данных . С этой концепцией я уже сталкивался раньше, читая об ИИ, но в итоге она оказалась гораздо важнее, чем я ожидал. Вот что я узнал: Во-первых, очистка данных охватывает различные методы подготовки данных для..

Тонкая грань между большими данными и машинным обучением

Большие данные и машинное обучение — это два интересных применения технологий, которые часто упоминаются вместе в сфере ИТ. Это отрасль науки, занимающаяся информацией и тем, как мы можем использовать ее для достижения целей. На самом деле существуют важные различия, которые необходимо понимать, когда мы принимаем решения о нашей стратегии бизнес-данных. Сегодня данные — это новое золото для компаний, отраслей и учреждений. Его часто называют движущей силой информационного века. Это..

Преобразование данных в машинном обучении, часть II

Почему преобразование «больших данных» и проектирование функций жизненно важны для успеха машинного обучения В этой статье рассматриваются следующие вопросы: 1. Что такое продукт данных 2. Проблемы преобразования данных 3. Планирование преобразования данных 4. Рекомендации по преобразованию данных. Реализация модели машинного обучения — это не ракетостроение. Но создание точного прогноза — это то, где в игру вступают опыт и навыки специалиста по данным. С другой стороны, модель..

Перепроектирование конвейера: от DynamoDB к Spark Streaming

Советы по решению вашей проблемной области, связанной с большими данными, с помощью инструментов, созданных для этой задачи. Мой трехлетний путь от инженера-программиста, специализирующегося на высокопроизводительных сервисах Java, до инженера данных, владеющего инструментами для работы с большими данными, привел меня к перепроектированию моей системы, отказу от DynamoDB и переходу на Spark Streaming. Проблемная область Мы принимаем сотни миллионов событий в день в наш конвейер..

Командная строка Bash от А до Я для специалистов по данным

Нужно быстро выполнить операцию с большим набором данных, не запуская Python или R? Bash предлагает способ с его полезным набором команд. Как специалисты по данным, мы хорошо разбираемся в Jupyter Notebooks и RStudio. От Pandas до Tidyverse беспорядочные данные обрабатываются очень эффективно и без усилий, чтобы предоставить входные данные алгоритмам машинного обучения для целей моделирования. Однако некоторые простые операции, такие как сортировка кадров данных и фильтрация..

Управление большими данными для оптимизации времени

Недавно я начал проект по разработке модели обнаружения мошенничества на основе набора данных Kaggle, доступного по адресу: https://www.kaggle.com/c/fraud-detection-analysis . Когда я начал импортировать данные, Я понял, что время на выполнение простого read_csv было слишком большим. Это привело меня к поиску более практичных способов работы с большими данными. Двумя основными вопросами были: как сократить время обработки при использовании Pandas? Как сохранить представление явления,..

Избавляемся от модных словечек в машинном обучении

Технические детали машинного обучения могут быть головокружительно сложными. Но на более высоком уровне - уровне, который вам нужно усвоить, чтобы понять, что такое машинное обучение и что он делает - его можно понять без какой-либо математики или программирования. Проблема с тем, чтобы говорить о технических вещах нетехнически, однако, заключается в безудержном и неправильном использовании модных словечек. Чтобы бороться с этим, давайте определим некоторые из наиболее широко используемых..