5 идей проектов для начинающих специалистов по данным

Включая источники данных и примеры проектов.

Наука о данных приобрела огромную популярность в последние годы. Все больше и больше предприятий видят потенциал данных для создания ценности. Таким образом, наблюдается рост спроса на специалистов по обработке данных, что побуждает многих людей начать карьеру в области науки о данных. В настоящее время нет недостатка в ресурсах для изучения науки о данных. Я не считал, но уверен, что существует более тысячи онлайн-сертификатов, связанных с наукой о данных. Когда книги, подкасты и видео на YouTube добавляются в стопку, она становится огромной коллекцией ресурсов для потребления.

Хорошо иметь множество ресурсов для обучения. Однако после того, как вы изучите основы и текущие инструменты и пакеты программного обеспечения, пора бросить себе вызов в проектах. То, что независимые проекты добавляют к вашему набору навыков, не может быть достигнуто с помощью онлайн-сертификатов. У меня есть подробный пост о том, почему вам стоит начать делать проекты. Вот он, если вы хотите взглянуть на него.

5 причин, по которым вы должны заниматься проектами вместо сбора сертификатов по науке о данных
Зачистите руки, чтобы учиться. todatascience.com

В этом посте я перечислю 5 идей проектов, а также способы поиска соответствующих наборов данных. Я также дам ссылку на пример проекта, который поможет вам начать работу.

1. Классификация изображений

Одной из областей, в которых используется глубокое обучение, является компьютерное зрение. В этой области существует множество приложений нейронных сетей, таких как распознавание изображений, обнаружение или создание поддельных изображений и видео. Нейронные сети также широко используются в сфере здравоохранения. Например, нейронные сети оказались успешными в обнаружении рака с помощью рентгеновских лучей. Проект классификации изображений станет вашим первым шагом в этой широкой области.

Скорее всего, вы будете использовать сверточные нейронные сети (CNN) для распознавания изображений. CNN обычно используются в области науки о данных, особенно для задач компьютерного зрения и классификации изображений. Изображения состоят из пикселей, которые представлены числами. В сверточном слое CNN фильтры (или детекторы признаков) применяются к изображению, чтобы выделить отличительные особенности изображения, сохраняя пространственные отношения между пикселями.

Набор данных Caltech101 содержит множество изображений самых разных объектов. Это отличный набор данных для обучения и тестирования CNN. Большое спасибо сообществу, которое подготовило и разрешило нам использовать этот набор данных.

Вот пошаговое руководство по созданию базовой модели классификации изображений:

Практическое руководство по сверточным нейронным сетям (CNN) с Keras
Теоретическое объяснение и реальный пример в сторонуdatascience.com

2. Прогнозирование оттока

Прогнозирование оттока - распространенный вариант использования в области машинного обучения. Для бизнеса очень важно иметь представление о том, почему и когда клиенты, вероятно, уйдут (т. Е. Покинут компанию). Наличие надежной и точной модели прогнозирования оттока помогает предприятиям принимать меры по предотвращению ухода клиентов из компании.

Компании, предлагающие любые услуги, озабочены оттоком клиентов. Они хотят удерживать своих клиентов как можно дольше. Для выполнения этой задачи им необходимо знать, когда и почему уходят клиенты.

В Интернете доступно множество наборов данных об оттоке. Достойным является набор данных Telco Customer Churn, доступный на kaggle.

Вот пример прогнозирования оттока:

Прогнозирование оттока с помощью машинного обучения
Пошаговое объяснение проекта машинного обучения. todatascience.com

3. Прогноз цен на акции

Прогнозирование временных рядов - еще одна обширная область науки о данных, которая находит применение во многих отраслях, таких как розничная торговля, финансы и цепочки поставок. Исторические данные используются для прогнозирования будущего поведения.

Прогнозирование цен на акции - это приложение для прогнозирования временных рядов, которое помогает вам познакомиться с этой областью. Одним из ключевых факторов, который можно использовать для прогнозирования цен на акции, являются исторические цены. Pandas, представляющая собой библиотеку анализа данных на языке Python, предоставляет очень простой инструмент для получения исторических данных о ценах на акции. Вам просто нужно использовать модуль панд datareader следующим образом:

import pandas as pd
from pandas_datareader import data
aapl = data.DataReader("AAPL", 
                        start='2015-1-1',
                        end='2019-12-31',
                        data_source='yahoo')

Приведенный выше код загружает цены на акции Apple (AAPL) и сохраняет их во фреймворке pandas. Даты начала и окончания, а также название акции можно изменить с помощью параметров.

LSTM (Long Short Term Memory), который является типом RNN (Recurrent Neural Network), может использоваться для прогнозирования цен на акции с использованием исторических данных. LSTM подходит для моделирования данных последовательности, потому что он поддерживает внутреннее состояние для отслеживания данных, которые он уже видел. Общие приложения LSTM включают анализ временных рядов и обработку естественного языка.

Вот пошаговое руководство по прогнозированию цен на акции с использованием LSTM:

Прогнозирование цен на акции Apple с помощью нейронных сетей
Как использовать повторяющиеся нейронные сети для прогнозирования цен на акции. todatascience.com

4. Прогнозирование цен на подержанные автомобили или жилье

Я уверен, что вы встречали веб-сайт или приложение, на котором указана рыночная стоимость вашего автомобиля или дома. Некоторые из них настолько распространены, что оказывают влияние на рынок. Мы, вероятно, будем использовать эти цены в качестве основы для наших переговоров.

Прогнозировать цены на подержанные автомобили или дома лучше всего с помощью машинного обучения. Мы создаем модель машинного обучения и обучаем ее на том, что мы уже знаем. Остальное полагается на предсказание нашей модели.

Это будет хорошей практикой для регрессии, которая имеет широкий спектр приложений, таких как прогнозирование продолжительности жизни, прогнозирование продаж и спроса или эксплуатационная эффективность производственных систем.

На kaggle есть хорошо структурированный набор данных цены на жилье. Вы также можете очистить свои собственные данные с веб-сайтов. Веб-скрапинг - важный навык для специалистов по анализу данных.

Вот пример задачи прогнозирования подержанного автомобиля. Он также содержит раздел веб-парсинга:

Прогнозирование цен на подержанные автомобили с помощью машинного обучения
Полный проект по науке о данных - от сбора данных до оценки модели todatascience.com

5. Исследовательский анализ данных

Это отличается от того, что мы обсуждали до сих пор. Однако это также фундаментальная практика для специалистов по данным. Создание моделей машинного обучения или глубокого обучения - не единственное, что должны делать специалисты по данным. Во многих случаях нам сначала нужно копнуть глубже, чтобы изучить данные. Мы должны подходить к данным с разных точек зрения, чтобы иметь возможность ценить их. Что говорят нам данные, иногда не так ясно. Нам нужно изучить основную структуру или взаимосвязи в данных. Таким образом, исследовательский анализ данных (EDA) - очень важный процесс. Специалисты по обработке данных должны быть знакомы с инструментами, используемыми в EDA, такими как библиотеки анализа и визуализации данных.

Вы можете выбрать набор данных, доступный на Kaggle или любой другой платформе, и попытаться изучить его. Чем больше вы практикуетесь, тем проще пользоваться инструментами EDA. Я много практикуюсь в использовании интересующих меня наборов данных. Это становится более интересным, когда вы начинаете обнаруживать не столь очевидные структуры или отношения.

Вот пара практик EDA, которые я сделал:

Практическое руководство по исследовательскому анализу данных: английская премьер-лига
Изучение сезона английской премьер-лиги 2019–2020 гг. в сторонуdatascience.com

Практическое руководство по исследовательскому анализу данных: набор данных Spotify
Одно изображение стоит тысячи слов кdatascience.com

Как и в любом учебном процессе, мы начинаем выполнять простые проекты, а затем повышаем свой уровень, делая все больше и больше. В конечном итоге мы приходим к выводу, что наши проекты могут быть реализованы в производстве. Но чтобы выйти на производственный уровень, нам нужно начать делать проекты. Собирая кучу сертификатов, мы не доходим до этого. Я бы порекомендовал потратить время на проекты после изучения основ. Лучше всего запачкать руки и выполнить много проектов.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.