Публикации по теме 'data'
Антропология по науке о данных: проект EPIC с Indicia Consulting в качестве исследовательского примера
Вот мой практический отчет с Indicia Consulting . Вместо магистерской диссертации факультет антропологии Мемфисского университета потребовал, чтобы мы, студенты магистратуры, выполнили практический проект . Для этого нам пришлось сотрудничать с организацией и выполнить более 300 часов антропологического исследовательского проекта, основанного на потребностях организации, наших навыках и интересах. Моим практическим проектом был проект Indicia EPIC с Калифорнийской энергетической..
Python - извлечение URL-адресов из строк
Как разработчик Python, мы должны выполнить множество задач, таких как очистка данных из файла или текстов перед обработкой других бизнес-операций.
Например, у вас есть текстовый файл с необработанными данными или текстовая строка, и вам нужно прочитать некоторые конкретные данные, такие как URL-адреса, для выполнения фактического сопоставления с регулярным выражением.
Что такое регулярное выражение и какой модуль используется в Python?
Регулярное выражение - это последовательность..
Ускоренный курс: выборка из пула в активном обучении
Активное обучение - это класс задач машинного обучения, при котором размеченные данные недоступны для контролируемых алгоритмов.
Возьмем для примера классическую установку. Допустим, у нас есть изображения птиц, и мы хотим классифицировать их по типу, но на изображениях нет ярлыков, указывающих, какие птицы на каждом из них. В этой ситуации мы полагаемся на людей, которые аннотируют информацию и сообщают машине тип каждого выбранного ею примера.
А пока мы сосредоточимся на одной..
Эффективно ли объектное хранилище для больших данных?
Инженерия данных
Эффективно ли объектное хранилище для больших данных?
Хранение, архивирование и управление данными с помощью хранилищ объектов
Введение
В эпоху больших данных архитектура объектного хранилища постоянно набирает популярность у команд, которые хотят хранить, архивировать и управлять большими объемами данных.
В сегодняшней статье мы собираемся обсудить фундаментальные концепции архитектуры объектного хранилища. Кроме того, мы также рассмотрим, чем оно отличается..
Надежное развертывание Apache Airflow
Установка и управление Apache Airflow в среде RHEL
Airflow — это замечательный инструмент от Airbnb, который в настоящее время является стандартом де-факто для развертывания ETL в области проектирования данных. Но в то же время вы также можете использовать Airflow для планирования конвейера машинного обучения и автоматизации всего конвейера машинного обучения (почти).
Это моя попытка установить и настроить достаточно надежное развертывание Apache Airflow для моих нужд. Я почти..
6 полезных распределений вероятностей с приложениями к задачам науки о данных
Практический обзор с примерами и кодом Python.
Распределения вероятностей - это математические функции, описывающие вероятности происходящего. Многие процессы, происходящие в окружающем нас мире, можно описать с помощью горстки распределений, которые были хорошо изучены и проанализированы. Разберитесь с этими немногими, чтобы получить возможность статистически смоделировать целый ряд явлений. Давайте взглянем на шесть полезных распределений вероятностей!
Биномиальное..
Наука о данных с использованием личных данных
Специалисты по обработке данных призывают вернуть наши личные данные через проекты
Вы когда-нибудь слышали, что в таких компаниях, как Facebook и Google, мы являемся продуктами, а не покупателями? Это высказывание исходит из того факта, что они предлагают нам достаточно хороший сервис, и мы готовы поставить на карту все наши данные (посмотрите, что я там сделал), чтобы использовать их сервис. Эти компании могут затем продавать наши данные рекламодателям и другим организациям, которые..