Публикации по теме data-science

Публикации по теме 'data-science'

Жизненный цикл проектов Data Science!

От сбора данных до развертывания модели (от начала до конца) 1. Сбор данных Сбор данных — это первый шаг в проекте жизненного цикла науки о данных. Это одна из самых важных вещей в жизненном цикле. Данные могут быть взяты из разных мест, таких как Интернет, данные компании, база данных и многое другое… 2. Исследовательский анализ данных После сбора данных нам необходимо провести предварительный анализ данных. Это способ визуализации, обобщения и интерпретации информации,..

Обучение декодированию неструктурированных индийских адресов

Ключевой задачей на пути к автоматизации и повышению эффективности в логистике и цепочке поставок является сделать записи адресов машиночитаемыми и преобразовать их в точные геокоды . Почтовые индексы доказали свою пригодность. довольно эффективны для обеспечения этого в развитых странах, например, в Великобритании, они обычно разрешают любой адрес с точностью 100–200 м. Однако в Индии пин-коды не кажутся многообещающими. Они представляют собой очень большие территории (средняя..

Простой способ создания цепочек алгоритмов - конвейеры с поиском по сетке, преобразователем столбцов, функцией…

Разработка конвейера для компиляции процессов с реализацией на Python Table of Contents 1. Introduction 2. Pipeline 3. Pipeline with Grid Search 4. Pipeline with ColumnTransformer, GridSearchCV 5. Pipeline with Feature Selection 1. Введение О подготовке набора данных для алгоритма, проектировании модели и настройке гиперпараметров алгоритма на усмотрение разработчика для обобщения модели и достижения оптимального значения точности упоминалось в предыдущих статьях. Как..

Понятия науки о данных, объясненные пятилетнему ребенку

Простое описание технических концепций в интервью Я видел много вопросов на собеседовании по науке о данных, в которых вас просят «описать мне [вставить концепцию науки о данных], как если бы я был пятилетним ребенком. Обсудив это с моей сестрой, которая учится на учителя начальной школы, мы решили, что этот вопрос немного преувеличен, возможно, для акцента или для того, чтобы привлечь внимание. Поэтому я решил сохранить броское название, но эта статья будет немного больше..

Как выполнить сопоставление строк нечеткого фрейма данных с помощью RecordLinkage

Расширенная очистка данных Как выполнить сопоставление строк нечеткого фрейма данных с помощью RecordLinkage Элитный пакет для самых сложных задач Введение В одной из своих предыдущих статей я писал о том, как выполнить подобие строк для очистки текстовых данных с помощью пакета fuzzywuzzy . Узнать о пакете и применить его на практике было действительно здорово. Но разве не было бы еще лучше, если бы мы могли выполнять тот же процесс между строками фреймов данных? Собственно,..

Федеративное обучение - машинное обучение с сохранением конфиденциальности

На помощь приходят безопасные многосторонние вычисления Федеративное обучение [1] , также известное как Совместное обучение или Машинное обучение с сохранением конфиденциальности , позволяет нескольким организациям, которые не доверяют друг другу (полностью), чтобы сотрудничать в обучении модели машинного обучения (ML) на их объединенном наборе данных; без фактического обмена данными - решение критических проблем, таких как конфиденциальность, права доступа и доступ к..

Group2Vec для предварительного категориального кодирования

Создавайте полноценные представления категорий с высокой мощностью Кодирование категориальных переменных является обязательным этапом предварительной обработки в каждом проекте машинного обучения. Выбрать правильную технику кодирования - серьезная и важная задача. Доступны многочисленные варианты: от классического однократного или целочисленного отображения до умной целевой функции кодирования или хеширования и, наконец, до более сложного векторного представления. Фиксированной..