Выделиться можно благодаря новизне, влиянию, навыкам или творчеству. В этой статье я выделяю проектные идеи, воплощающие эти качества.

Оглавление

  1. Идея проекта №1: Исследования НАСА
  2. Идея проекта №2: Создание контента
  3. Идея проекта №3: ​​Воздействие на реальный мир
  4. Идея проекта №4: Передовые технологии
  5. Идея проекта №5: Библиотеки с открытым исходным кодом
  6. "Заключение"

В своем прошлом материале я подчеркивал этот важный факт: Ваше портфолио должно отличать вас от других кандидатов. Это не должно делать вас похожими на них. Если у вас у всех есть похожие проекты с похожими методами, как вы собираетесь выделяться настолько, чтобы вас наняли?

Хотя что значит выделяться? Выделиться можно благодаря новизне, влиянию, навыкам или творчеству. В этой статье я выделю 5 самых интересных идей проектов по науке о данных в сочетании с конкретными примерами, которые обязательно привлекут внимание. .

Если вы предпочитаете формат видео, рассмотрите следующее, чтобы узнать больше по этой теме:

Идея проекта №1: Исследования НАСА

Вы ищете проект, который не от мира сего… в буквальном смысле? Что ж, космос — хорошее место для начала. НАСА бесплатно собирает и делится огромным количеством данных о своих миссиях, исследованиях и деятельности в Интернете.

С этим невероятным набором данных вы можете искать данные по планетам и по миссиям. Вы даже изучаете данные науки о жизни, которые НАСА собирает от всего, от людей до жуков. У них даже есть данные о человеческих ресурсах из НАСА, доступные для вас.

Простым проектом с этими данными может быть приборная панель сравнения планет. Кто-то, обладающий знаниями или интересом к космосу, может сделать что-то еще более впечатляющее, например создать алгоритм для классификации космического мусора или даже идентификации объектов на изображениях, сделанных астронавтами.

Идея проекта №2: Создание контента

Следующая тема немного ближе к дому. У меня к вам вопрос: потребляете ли вы контент? Может быть, подкаст, видео на YouTube или твиты? Что, если бы я сказал вам, что данные с этих каналов, которые вы любите, могут стать темой вашего следующего проекта?

Одним из моих первых проектов был анализ текстовых данных одного из моих любимых подкастов Bigger Pockets. Многие подкасты бесплатно публикуют стенограммы своих данных в Интернете, потому что это облегчает поиск. Таким образом, вы можете собрать эти данные и использовать их в проекте.

Это идеальные типы проектов для изучения методов обработки естественного языка, тематического моделирования и некоторых уникальных стилей визуализации.

Если интервьюеру также нравится подкаст, над которым вы работали, вам будет о чем поговорить!

Это не только подкасты, в частности, у YouTube есть хороший API для парсинга описаний видео, а также есть несколько достаточно надежных библиотек для получения данных Twitter.

Идея проекта № 3: Воздействие на реальный мир

Не так много вещей более ценны, чем проект, который оказывает влияние на реальный мир. К счастью, существует множество бесплатных наборов данных, которые позволяют вам исследовать и потенциально влиять на явления в реальном мире.

Первая из них — это данные Продовольственной и сельскохозяйственной организации (ФАО) ООН. Это данные, которые я лично изучил для первого испытания в фильме Z by HP’s Unlocked. Это упражнение — отличное место для начала, но это только начало доступных там данных.

Благодаря ФАО у вас есть глобальные данные о производстве продуктов питания, продовольственной безопасности, торговле, лесном хозяйстве, устойчивом развитии, занятости и по меньшей мере дюжине других интересных областей.

Эти данные отлично подходят для создания информативных информационных панелей или для выполнения различных форм анализа временных рядов.

Если вы живете в США, другим набором данных, который может иметь непосредственное отношение к вам и вашему сообществу, является FBI Crime Data Explorer.

Этот набор содержит исторические и, в некоторых случаях, данные в реальном времени о различных типах преступлений по штатам. Опять же, это было бы здорово для описательного анализа или, возможно, логического анализа, чтобы определить, какие преступления увеличились в зависимости от политики штата.

Идея проекта №4: Передовые технологии

Наука о данных движется быстрее, чем когда-либо прежде. Похоже, что GPT-3, революционный алгоритм, уже устарел. Из того, что я слышал, на самом деле в ближайшем будущем появятся слухи о GPT-4. Самое замечательное в этом домене то, что вы можете получить доступ к некоторым из самых передовых технологий по довольно низкой цене.

Проект, который мог бы открыть глаза, мог бы использовать некоторые из новых языковых моделей или генеративных моделей в простом веб-сайте. Огромная часть науки о данных — это знание того, как использовать модели после того, как вы их построили, и это отличный способ продемонстрировать эти навыки. Лично меня интересует DALL-E 2, на который я все еще нахожусь в списке ожидания. Если кто-нибудь может дать мне доступ, я был бы бесконечно благодарен!

Лично мне нравится видеть, как люди находят уникальные приложения для GAN и обучения с подкреплением. У моего друга Ника Ренотта есть потрясающая серия, в которой он использует алгоритмы подкрепления, чтобы играть в свои любимые игры из юности. Если вы работаете в сфере технологий, я ожидаю, что по крайней мере один из ваших интервьюеров будет очень заинтересован в этом проекте.

Идея проекта № 5: Библиотеки с открытым исходным кодом

Последний тип проектов, который я рекомендую, вероятно, является наиболее уважаемым, но, возможно, наименее привлекательным для большинства людей. Это способствует библиотекам с открытым исходным кодом. Если вы используете библиотеку и можете придумать, как сделать ее немного лучше, почему бы не сделать это? Моя подруга Стефани Молин недавно была немного разочарована тем, как некоторые графические методы работают в пандах. Он был немного неуклюжим, и она подумала, что его можно улучшить. Ей потребовался целый день, но она внесла некоторые коррективы и представила их. Угадай, что? Они были одобрены!

Я знаю, что это кажется очень продвинутым, но это не обязательно. Во многих библиотеках остро нуждаются в примерах кода реализации. Иногда простое добавление примеров в файл readme может сделать вас участником различных проектов. Вот несколько идей для проектов по науке о данных с открытым исходным кодом:



Это то, что может очень сильно выделить вас из толпы!

Заключение

Я сделал все возможное, чтобы дать вам некоторую гибкость в рамках этих проектов. Если бы я давал очень конкретные проекты, скорее всего, их был бы огромный наплыв на рынке и тогда никто не выделялся бы. С учетом сказанного, после этой статьи вполне вероятно, что использование этих наборов данных все еще будет увеличиваться, и вам нужно будет найти дополнительные способы снова выделиться. К счастью, вы можете проявить творческий подход и найти свои собственные проекты. Посмотрите это видео о том, как самостоятельно придумывать проекты по науке о данных.

Я надеюсь, что эта статья даст вам несколько забавных идей о том, как отделиться от остальных и сделать что-то полезное в работе над проектом. Если вам понравилась эта статья, не забудьте подписаться на меня на Medium, чтобы получать больше подобного контента, и подпишитесь на мою рассылку, чтобы получать еженедельные обновления о моем создании контента и о дополнительных учебных ресурсах в индустрии науки о данных! Кроме того, подумайте о том, чтобы поддержать меня и тысячи других писателей, подписавшись на членство.

До следующего раза, удачи в вашем путешествии по науке о данных!

Подпишитесь на DDIntel Здесь.

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate