Публикации по теме 'data'


Антропология по науке о данных: проект EPIC с Indicia Consulting в качестве исследовательского примера
Вот мой практический отчет с Indicia Consulting . Вместо магистерской диссертации факультет антропологии Мемфисского университета потребовал, чтобы мы, студенты магистратуры, выполнили практический проект . Для этого нам пришлось сотрудничать с организацией и выполнить более 300 часов антропологического исследовательского проекта, основанного на потребностях организации, наших навыках и интересах. Моим практическим проектом был проект Indicia EPIC с Калифорнийской энергетической..

Python - извлечение URL-адресов из строк
Как разработчик Python, мы должны выполнить множество задач, таких как очистка данных из файла или текстов перед обработкой других бизнес-операций. Например, у вас есть текстовый файл с необработанными данными или текстовая строка, и вам нужно прочитать некоторые конкретные данные, такие как URL-адреса, для выполнения фактического сопоставления с регулярным выражением. Что такое регулярное выражение и какой модуль используется в Python? Регулярное выражение - это последовательность..

Ускоренный курс: выборка из пула в активном обучении
Активное обучение - это класс задач машинного обучения, при котором размеченные данные недоступны для контролируемых алгоритмов. Возьмем для примера классическую установку. Допустим, у нас есть изображения птиц, и мы хотим классифицировать их по типу, но на изображениях нет ярлыков, указывающих, какие птицы на каждом из них. В этой ситуации мы полагаемся на людей, которые аннотируют информацию и сообщают машине тип каждого выбранного ею примера. А пока мы сосредоточимся на одной..

Эффективно ли объектное хранилище для больших данных?
Инженерия данных Эффективно ли объектное хранилище для больших данных? Хранение, архивирование и управление данными с помощью хранилищ объектов Введение В эпоху больших данных архитектура объектного хранилища постоянно набирает популярность у команд, которые хотят хранить, архивировать и управлять большими объемами данных. В сегодняшней статье мы собираемся обсудить фундаментальные концепции архитектуры объектного хранилища. Кроме того, мы также рассмотрим, чем оно отличается..

Надежное развертывание Apache Airflow
Установка и управление Apache Airflow в среде RHEL Airflow — это замечательный инструмент от Airbnb, который в настоящее время является стандартом де-факто для развертывания ETL в области проектирования данных. Но в то же время вы также можете использовать Airflow для планирования конвейера машинного обучения и автоматизации всего конвейера машинного обучения (почти). Это моя попытка установить и настроить достаточно надежное развертывание Apache Airflow для моих нужд. Я почти..

6 полезных распределений вероятностей с приложениями к задачам науки о данных
Практический обзор с примерами и кодом Python. Распределения вероятностей - это математические функции, описывающие вероятности происходящего. Многие процессы, происходящие в окружающем нас мире, можно описать с помощью горстки распределений, которые были хорошо изучены и проанализированы. Разберитесь с этими немногими, чтобы получить возможность статистически смоделировать целый ряд явлений. Давайте взглянем на шесть полезных распределений вероятностей! Биномиальное..

Наука о данных с использованием личных данных
Специалисты по обработке данных призывают вернуть наши личные данные через проекты Вы когда-нибудь слышали, что в таких компаниях, как Facebook и Google, мы являемся продуктами, а не покупателями? Это высказывание исходит из того факта, что они предлагают нам достаточно хороший сервис, и мы готовы поставить на карту все наши данные (посмотрите, что я там сделал), чтобы использовать их сервис. Эти компании могут затем продавать наши данные рекламодателям и другим организациям, которые..