Публикации по теме data-science

Публикации по теме 'data-science'

Введение в дискретизацию в науке о данных

Введение в методы дискретизации для специалистов по данным Разработка функций: 4 метода дискретизации, которые необходимо изучить. Дискретизация - это процесс, с помощью которого мы можем преобразовывать непрерывные переменные, модели или функции в дискретную форму. Мы делаем это, создавая набор смежных интервалов (или бинов), которые проходят через диапазон нашей желаемой переменной / модели / функции. Непрерывные данные измеряются, а дискретные данные - Подсчитано...

Rundown Ray’s R&D: Псевдо-ярлыки

Многие из последних достижений в области глубокого обучения связаны с использованием неструктурированных и неконтролируемых данных. Использование таких данных особенно распространено в моделировании речи и языка, например, где топ-модели используют различные задачи предварительной подготовки на неконтролируемых текстовых корпусах. ²³ Это также получило распространение в других областях. В недавней статье группы Куок Ле. повысила точность ImageNet Top-1 на поразительные два процента,..

Предварительная обработка структурированных данных для машинного обучения — I

Предварительная обработка данных — это первая часть любого проекта машинного обучения, которым мы занимаемся. Этот пост в блоге, мой первый, начнет обсуждать предварительную обработку данных в python. Я использовал Jupyter Notebook/lab в качестве предпочтительной IDE наряду с Python 3. Зачем нужна предварительная обработка данных? Предварительная обработка данных гарантирует, что данные доступны в правильном формате для выполнения машинного обучения. Золотое правило любого проекта..

Создайте свой собственный набор данных с помощью Python

Как я построил тысячи строк точек данных с нуля Данные - основа науки о данных и машинного обучения. Тысячи и тысячи точек данных необходимы для того, чтобы анализировать, визуализировать, делать выводы и строить модели машинного обучения. В некоторых случаях данные доступны для бесплатного скачивания. В других случаях данные нигде не найти. В ситуациях, когда данные недоступны, но необходимы, вам придется прибегать к их самостоятельному накоплению. Есть много методов, которые вы..

Кластеризация новостных статей с использованием обучения без учителя

LinkedIn GitHub На прошлой неделе я опубликовал сообщение об инструменте извлечения резюме текста, который я создал с помощью Python с использованием NLTK и оценок косинусного сходства. Эту статью можно найти ЗДЕСЬ. На этой неделе блог будет посвящен другой части этого проекта, где я использую алгоритмы неконтролируемого обучения для кластеризации новостных статей, а затем алгоритмы контролируемого обучения для классификации недавних статей. Данные Данные, которые я использую,..

Пример использования машинного обучения: прогнозирование оттока клиентов телекоммуникационной компании

Для телекоммуникационных компаний ключевым моментом является привлечение новых клиентов и в то же время недопущение расторжения контрактов (= оттока) для увеличения своей базы получения дохода. Глядя на отток, клиенты могут расторгнуть свои контракты по разным причинам, например, более выгодные ценовые предложения, более интересные пакеты, плохой сервис или изменение личного положения клиентов. Аналитика оттока клиентов предоставляет ценные возможности для прогнозирования оттока..

Математика линейной регрессии.

В этой статье я объясню различные математические концепции, связанные с линейной регрессией, в простейшем виде. Линейная регрессия - это алгоритм машинного обучения, который относится к методу контролируемого обучения, где исторические данные помечаются и используются для определения значения выходной / зависимой переменной на основе предиктора / независимой переменной / переменных. Здесь, как следует из названия, предполагается, что отношения между зависимыми и независимыми..