Ключ к успеху - уникальность, а не причудливость

Вы хотите войти в мир науки о данных? Поздравляю! Это (по-прежнему) правильный выбор.

Рынок в настоящее время становится жестче. Итак, вы должны быть морально готовы к долгому пути найма и множеству отказов. Я предполагаю, что вы уже прочитали, что портфолио по науке о данных имеет решающее значение и как его создать. Большую часть времени вы будете обрабатывать и анализировать данные, а не применять замысловатые модели.

Один вопрос, который мне постоянно задают, касается конкретных источников данных для классных данных и проектных возможностей для создания такого портфолио.

Я даю вам следующие пять идей для вашего портфолио в области науки о данных и несколько советов по развитию уникальности.

Пять конкретных идей для проектов в области науки о данных

1. Клиентская аналитика для местной некоммерческой организации

Важнейшая задача некоммерческой организации - найти нужного человека в нужном месте или в нужном месте, к которому обращаются с подходящей средой для пожертвований на благотворительную деятельность. Когда это можно будет оптимизировать, некоммерческая организация сможет собирать больше средств и выполнять больше действий.

Чем интересен этот проект?

Во-первых, у большинства некоммерческих организаций имеется много данных, не обязательно в оцифрованном виде и зачастую невысокого качества. Основная задача - создание базы данных, обработка данных и получение данных в удобной для использования форме. Вы учитесь структурировать весь беспорядок с данными, который по-прежнему составляет до 80% работы в области науки о данных.

Во-вторых, вы делаете что-то хорошее для местного сообщества и демонстрируете свою социальную ответственность. Вы общаетесь с людьми, которые не являются экспертами по данным. Оба демонстрируют необходимые мягкие навыки для должности в области науки о данных.

Я добровольно выполнял такие проекты для организации, которая помогает детям из бедных семей, и для организации, которая помимо моей профессиональной работы обеспечивает уход за пожилыми людьми на дому. Такой опыт укрепляет доверие к вам и открывает двери для многих других интересных проектов.

Наконец, некоммерческие организации работают так же, как частный банкинг или управление капиталом. Они также должны привлечь нужного клиента в нужный момент с помощью правильной кампании, чтобы принести им деньги. И я могу вам сказать; данные также не лучшего качества, чем данные некоммерческой организации. Вы можете напрямую использовать свой опыт в других отраслях.

С чего начать?

Я нашел некоммерческие организации через свою сеть. В вашей семье, родственниках и друзьях всегда есть кто-то, кто работает в некоммерческой организации. Затем я согласился на первую ознакомительную встречу и объяснил им, в чем состоят мои навыки и какова ценность такого анализа. Я привел им примеры из Google и Facebook. И я искал общедоступную информацию об увеличении числа потенциальных клиентов в других некоммерческих организациях, чтобы дать им представление. После того, как я дал им сначала время подумать несколько дней об этом, и в каждом случае они возвращались и соглашались выполнить проект. Затем я начал всю работу по обработке данных.

Когда данные готовы к использованию, вы можете пройти классический цикл описательной, прогнозной и предписывающей аналитики.

2. ЦЕРН

ЦЕРН известен в основном своими ведущими фундаментальными исследованиями в области физики элементарных частиц и крупнейшей лабораторией элементарных частиц в мире.

Часто неизвестно, что ЦЕРН делает большую часть своих данных, кодов, алгоритмов и инструментов, которые они разработали и используют для своих исследований, доступными для общественности. Они имеют сложные наборы инструментов для тестирования алгоритмов и предоставляют 1-, 2-, 3- и 4-мерные изображения. И их гораздо больше.

ЦЕРН не называет все это «инновациями». Нет, это всего лишь «инструменты» для выполнения их «настоящей» инновационной задачи: новые рубежи в физике элементарных частиц.

Я могу только настоятельно рекомендовать потратить некоторое время, просмотреть их веб-страницы и изучить все данные и инструменты, доступные для анализа данных. Это одно из их основных направлений деятельности, работающее на очень сложном уровне. Я все еще многому учусь и получаю много новых идей.

Веб-страница вложена. Пожалуйста, не теряйте страсти, впервые просматривая его!

На Портале открытых данных ЦЕРН вы можете найти два петабайта данных о физике элементарных частиц, чтобы начать свой собственный анализ.

Чем интересен этот проект?

Когда вы начинаете работать над проектом как специалист по данным, вы обычно знаете только о том, что где-то есть данные. Во-первых, вы должны изучить, какие данные доступны, где их можно найти, есть ли в них избыточности, у кого есть знания и доступ к данным и т. Д.

Начиная с данных CERN, задача остается той же, если вы не знакомы со всеми экспериментами по физике элементарных частиц. К счастью, в моих командах по анализу данных всегда были бывшие ученые из ЦЕРН, что значительно упростило понимание.

Во-вторых, наличие «ЦЕРН» в резюме всегда является преимуществом, если предполагается, что была проделана серьезная работа. Благодаря урокам физики, опубликованным выпускам, вебинарам и обсуждениям вы можете стать частью сообщества. В ЦЕРН работает около 2500 человек и около 17 500 ученых со всего мира. Многие основатели стартапов имеют опыт работы в сообществе ЦЕРН.

Наконец, у вас мало данных, а это означает, что важная информация, представленная в данных, встречается редко. Из тысяч или миллионов точек данных вы ищете только несколько шаблонов, чтобы найти и идентифицировать. Обнаружение таких редких сигналов важно во многих областях: профилактическое обслуживание, поиск миллиардера, готового вложить средства в ваш фонд, или точная медицина.

С чего начать?

Начните с ознакомления с тем, что делает ЦЕРН, просматривая его веб-страницу и Википедию. На портале открытых данных у вас есть ссылка на документ, где можно найти много справочной информации, включая ссылки на GitHub, и руководства. Также есть специальный узел Data Science. Посмотрите, что уже сделали ученые CERN, извлеките у них урок и начните анализировать индивидуально выбранные наборы данных своими собственными методами.

Работа с данными CERN - это не быстрый проект, но очень поучительный. Кроме того, вы можете многое узнать о теме, находящейся на переднем крае физики.

3. Омдена

Omdena называет себя совместной платформой AI. Он объединяет 30–50 человек по проекту, которые решают с помощью данных и ИИ реально существующую проблему в этом мире.

В отличие от конкурса Kaggle, это настоящий сквозной проект со всей борьбой за проект. Вы работаете в команде с разными навыками и со всеми проблемами межличностного общения. И вы можете оказать реальное влияние, поскольку все проекты связаны с одной из 17 целей устойчивого развития ООН.

Мой хороший друг с более чем 20-летним опытом работы в области науки о данных вкладывает в среднем 20% своего времени в проекты на Omdena. И даже он говорит, что всегда узнает много нового.

Омдене нужен широкий спектр навыков в области искусственного интеллекта, обработки данных и машинного обучения, а также уровень знаний. Вы должны пройти процесс подачи заявки, например, на стажировку, с той большой разницей, что ищутся не конкурентоспособные личности, а люди с командным духом. Они не ищут только специалистов. Это дух сотрудничества.

Чем интересен этот проект?

Вы являетесь участником реального проекта в области науки о данных. Нет приукрашенных миссий, данных и результатов. Он «просто» должен решить реальную проблему с помощью подхода, основанного на данных. Вы знакомитесь со всем циклом проекта в области науки о данных, и можете испытать различные этапы и роли.

Далее, интересно работать бок о бок с опытными людьми и получать их наставничество. Всего за один проект вы узнаете больше, чем за все ваши 10 MOOC и соревнования Kaggle.

И последнее, но не менее важное: вы получаете сертификат проекта. Да, это еще один сертификат, помимо вашего Coursera, Udacity и университетского диплома, но он подтверждает ваш практический опыт.

С чего начать?

Посмотрите на завершенные, текущие и предстоящие проекты. Ознакомьтесь с подходом Омдены и, если вы заинтересованы в участии, следуйте указаниям здесь.

4. Международная и правительственная организация

Многие международные и правительственные организации развития теперь работают на основе данных. ООН, ВОЗ, Всемирный банк, Международная финансовая корпорация, Межамериканский банк развития и Европейский банк реконструкции и развития - вот некоторые из них. Кроме того, у большинства правительств есть целевые группы, отвечающие за целевые данные и проекты ИИ, а также за построение экосистемы.

Помимо предложения стажировок, оплачиваемых или неоплачиваемых, большинство контрактов представляют собой срочные контракты на срок от нескольких месяцев до трех лет.

Кроме того, многие стартапы в области науки о данных и искусственного интеллекта работают с правительственными ведомствами.

За последние 12 месяцев я помог двум бывшим членам команды найти такие проекты. Тот, наполовину тайец, уехал в Таиланд, чтобы работать в стартапе по работе с большими данными, который работает с правительством Таиланда.

Другой отсканировал все объявления о вакансиях, отправил свое резюме в эти международные организации и связался с людьми, чтобы, наконец, получить срочный контракт на проект на 4 месяца в одном из зарубежных банков развития.

Чем интересен этот проект?

Эти работы и проекты часто бывают за границей. В дополнение к практическому опыту в области науки о данных можно получить много опыта работы с иностранной культурой и того, как вести себя в среде международной дипломатии. Это дает вам жизненно важные мягкие навыки для продвижения по карьерной лестнице.

Вы можете взять на себя ответственность с самого начала. Небольшие команды, взаимодействие с лицами, принимающими решения, презентации перед ведущими людьми - это часть большинства проектов. Вы часто получаете контакты и наставничество с ведущими экспертами в этой области, поскольку они часто консультируют международные и правительственные организации.

Наконец, проекты уникальны и связаны с исследованиями, что дает пространство для новых экспериментов. Примеры таких проектов включают анализ дорожно-транспортных происшествий со смертельным исходом в развивающейся стране, где правительство хочет принять меры по их сокращению, или анализ геопространственных причин загрязнения воздуха, потому что правительство хочет принять законы, ограничивающие его. В эту аналитику интегрированы многие социально-экономические аспекты.

С чего начать?

Первая задача - это исследование открытых позиций, текущих проектов и, что немаловажно, стартапов, работающих с такими организациями.

Позиции можно найти в UNjobs - не только от ООН, но и от всех организаций, как упоминалось ранее, а также, например, Coursera. Кроме того, поищите на официальных домашних страницах ключевое слово специалист по данным.

Если подходящей стажировки или краткосрочной работы нет, все равно отправьте свое резюме. Если у них есть проекты, они сравнивают их с уже имеющимися резюме в базе данных, и если ваш профиль совпадает, они свяжутся с вами.

Во-вторых, ищите стартапы, которые работают с правительствами. Если у стартапов есть проекты, связанные с Целями устойчивого развития ООН, они, скорее всего, работают с правительствами.

Другим показателем этого является обращение к благам общества, таким как водные ресурсы, более безопасное сообщество, например, предотвращение дорожно-транспортных происшествий или насилия, аспекты равенства, борьба с такими заболеваниями, как ВИЧ или малярия, или уменьшение загрязнения.

Начните рано искать такой проект. На это нужно время и настойчивость.

Но очень рекомендую. Такое задание открывает множество дверей в течение вашей карьеры, независимо от отрасли, в которой вы работаете. Недавно я смог перейти в авторитетный аналитический центр в качестве руководителя программы. Это редкий шанс получить такую ​​должность. Почему они спросили меня? Потому что раньше я делал такие проекты.

5. База данных EDGAR

EDGAR, аббревиатура от Electronic Data Gathering, Analysis, and Retrieval, представляет собой базу данных, которая содержит все материалы, представленные компаниями и другими лицами, которые по закону обязаны подавать формы в Комиссию по ценным бумагам и биржам США.

У вас есть полезная бизнес-информация в виде цифр и текста. Краткое введение находится здесь.

Чем интересен этот проект?

Сначала вы узнаете, как получить доступ, загрузить и извлечь информацию из веб-базы данных, в основном состоящую из текста. Это можно сделать с помощью Python, и уже существует OpenEDGAR, программное обеспечение с открытым исходным кодом, написанное на Python. Но я бы порекомендовал другие языки, например Perl. Он специально разработан для обработки текста, то есть извлечения необходимой информации из указанного текстового файла и преобразования ее в другую форму. Это намного быстрее, чем Python. И если вы хотите работать в банке, на Perl все еще есть множество баз данных.

Это отличная база данных для анализа настроений и использования ее для прогнозирования динамики цен на акции и компании. Многие начинки кодируются, потому что компании хотят сиять и не предоставляют достаточно информации конкурентам. Итак, эта база данных - отличный учебный ресурс для обработки естественного языка (НЛП).

Наконец, это отличные темы для создания собственного блога либо об инвестициях, либо о НЛП. Если серьезно, то вы можете привлечь внимание общественности к своей работе в области науки о данных, и это значительно увеличит ваши шансы на получение работы в области науки о данных вашей мечты.

С чего начать?

Выберите одну компанию, которую вы хотите проанализировать. Возьмите тот, который существует не менее десяти лет. Начните с того, чтобы предсказать, стоит ли покупать или продавать акции компаний.

Ознакомьтесь с различными формами в EDGAR. Начните с 10-K, недавнего годового отчета компании, и 8-K, «текущего отчета», в котором публикуются события, о которых акционеры должны знать.

Проведите общий анализ настроений за последние несколько лет и посмотрите на положительные, отрицательные и чистые тенденции настроений. Сравните кривые с изменением цены акций. Кроме того, в заявлениях включена прогнозная информация. Проанализируйте их, и вы получите тренд.

Подсказка: формулировки прогнозных заявлений содержат такие слова, как «будет», «должен», «может», «мог бы», «намереваться» и т. д.

Развивайте его с помощью более сложных алгоритмов НЛП и настроений, изучая другие компании в той же отрасли и объединяя различные источники, такие как новости и макроэкономические показатели. Сравните это с ценами на акции и финансовыми коэффициентами. Нет никаких ограничений для всех этих анализов и богатого контента для блога.

Соединяя точки

Я знаю, что создать крутое портфолио в области науки о данных - тяжелая работа. С такой коллекцией вы сможете добиться в этой области прогресса выше среднего, получить массу удовольствия и получить работу своей мечты в области науки о данных.

Я рекомендую это не только новичкам в области науки о данных, но и старшим специалистам по данным. Это открывает много новых путей в вашей карьере, не только благодаря проектам, но и благодаря недавно приобретенному кругу контактов.

Эти идеи показывают вам широкий спектр возможностей и дают идеи для нестандартного мышления.

Для меня и моих друзей важны факторы обучения и развлечения. Это наша главная цель, когда мы уделяем время подобным проектам.

То, что мы создали также захватывающее и уникальное портфолио, было всего лишь ненужным продуктом.