Публикации по теме 'data-science'
Жизненный цикл проектов Data Science!
От сбора данных до развертывания модели (от начала до конца)
1. Сбор данных
Сбор данных — это первый шаг в проекте жизненного цикла науки о данных. Это одна из самых важных вещей в жизненном цикле. Данные могут быть взяты из разных мест, таких как Интернет, данные компании, база данных и многое другое…
2. Исследовательский анализ данных
После сбора данных нам необходимо провести предварительный анализ данных. Это способ визуализации, обобщения и интерпретации информации,..
Обучение декодированию неструктурированных индийских адресов
Ключевой задачей на пути к автоматизации и повышению эффективности в логистике и цепочке поставок является сделать записи адресов машиночитаемыми и преобразовать их в точные геокоды . Почтовые индексы доказали свою пригодность. довольно эффективны для обеспечения этого в развитых странах, например, в Великобритании, они обычно разрешают любой адрес с точностью 100–200 м. Однако в Индии пин-коды не кажутся многообещающими. Они представляют собой очень большие территории (средняя..
Простой способ создания цепочек алгоритмов - конвейеры с поиском по сетке, преобразователем столбцов, функцией…
Разработка конвейера для компиляции процессов с реализацией на Python
Table of Contents
1. Introduction
2. Pipeline
3. Pipeline with Grid Search
4. Pipeline with ColumnTransformer, GridSearchCV
5. Pipeline with Feature Selection
1. Введение
О подготовке набора данных для алгоритма, проектировании модели и настройке гиперпараметров алгоритма на усмотрение разработчика для обобщения модели и достижения оптимального значения точности упоминалось в предыдущих статьях. Как..
Понятия науки о данных, объясненные пятилетнему ребенку
Простое описание технических концепций в интервью
Я видел много вопросов на собеседовании по науке о данных, в которых вас просят «описать мне [вставить концепцию науки о данных], как если бы я был пятилетним ребенком. Обсудив это с моей сестрой, которая учится на учителя начальной школы, мы решили, что этот вопрос немного преувеличен, возможно, для акцента или для того, чтобы привлечь внимание. Поэтому я решил сохранить броское название, но эта статья будет немного больше..
Как выполнить сопоставление строк нечеткого фрейма данных с помощью RecordLinkage
Расширенная очистка данных
Как выполнить сопоставление строк нечеткого фрейма данных с помощью RecordLinkage
Элитный пакет для самых сложных задач
Введение
В одной из своих предыдущих статей я писал о том, как выполнить подобие строк для очистки текстовых данных с помощью пакета fuzzywuzzy . Узнать о пакете и применить его на практике было действительно здорово. Но разве не было бы еще лучше, если бы мы могли выполнять тот же процесс между строками фреймов данных?
Собственно,..
Федеративное обучение - машинное обучение с сохранением конфиденциальности
На помощь приходят безопасные многосторонние вычисления
Федеративное обучение [1] , также известное как Совместное обучение или Машинное обучение с сохранением конфиденциальности , позволяет нескольким организациям, которые не доверяют друг другу (полностью), чтобы сотрудничать в обучении модели машинного обучения (ML) на их объединенном наборе данных; без фактического обмена данными - решение критических проблем, таких как конфиденциальность, права доступа и доступ к..
Group2Vec для предварительного категориального кодирования
Создавайте полноценные представления категорий с высокой мощностью
Кодирование категориальных переменных является обязательным этапом предварительной обработки в каждом проекте машинного обучения. Выбрать правильную технику кодирования - серьезная и важная задача. Доступны многочисленные варианты: от классического однократного или целочисленного отображения до умной целевой функции кодирования или хеширования и, наконец, до более сложного векторного представления.
Фиксированной..