Для моего первого сообщения в блоге о науке о данных я хотел сделать что-то простое. Просто "обо мне". И мой путь к тому, чтобы стать специалистом по данным. Оказывается, объяснить себя намного сложнее, чем кажется.

Задний план:

Когда я начинаю свой путь к тому, чтобы стать полноправным специалистом по данным, важно помнить, как я сюда попал. В мае этого года я окончил Университет Эмори со степенью в области политологии. Мне потребовалось несколько лет, чтобы выбрать специальность, но в конце концов я обнаружил, что моя страсть была там. Меня особенно интересовали выборы, партийная политика и политические СМИ. Моей целью тогда и отчасти сейчас было найти способ работать в политических исследованиях и кампаниях.

Первая экспозиция:

Я впервые попробовал науку о данных, будучи студентом, когда я проводил фундаментальные исследования для своих курсов. Эмори требует, чтобы большинство студентов, специализирующихся в области естественных или социальных наук, прошли курс, известный как количественные теории и методы (QTM). В QTM я изучил основы статистической теории. Мы рассмотрели распределения, случайные величины, проверку гипотез и доверительные интервалы. Самые основные инструменты, необходимые в то время. Мы также познакомились с программированием на R и с тем, как использовать его с этими инструментами. Хотя большая часть моих исследований в области политических наук в то время была качественной, я пытался использовать эти статистические меры, где это было возможно. На последнем курсе я начал исследовательский проект, цель которого заключалась в изучении масштабов партийной махинации во время последних четырех выборов в Конгресс. Я немного покопался в Интернете, чтобы узнать, что делают люди, хотя я понял, что вода становится глубокой довольно быстро. У меня не было технических навыков, чтобы ответить на вопрос так, как я хотел. Хотя мне удалось упростить задачу и исследовать мошенничество более простым способом, статьи о моделировании цепей Маркова методом Монте-Карло для создания миллионов карт пробудили во мне интерес. Я хотел проплыть мимо глубины.

После выпуска я начал искать работу, хотя было сложно найти что-то интересное и хорошо оплачиваемое, имея всего лишь степень бакалавра политических наук. Хотя я любил свою специальность и не хотел возвращаться в прошлое, чтобы изменить ее, мне нужно было что-то изменить. Вот почему я решил присоединиться к программе General Assembly Data Science Immersive Program в Сан-Франциско.

Но почему этот путь?

Честно говоря, я мог многое сделать, чтобы получить работу после выпуска. Я мог бы попытаться освоить другой навык, например, дизайн пользовательского опыта или цифровой маркетинг. Оба были достойными вариантами, но когда я сел, чтобы подумать об этом, на самом деле не было решения: наука о данных была моим путем. Рискуя превратиться в генератор модных словечек, я знаю, что данные меняют наш мир. Доступно больше информации, чем когда-либо прежде, и у нас есть лучшие инструменты для ее понимания.

Как студент социальных наук, я могу сказать вам, что каждый день мы сталкиваемся с новыми и трудными вопросами. Как эффективно переориентировать нашу систему здравоохранения в Америке? Как справиться с растущим уровнем миграции во всем мире? Как выявлять и бороться с потенциальными ультраправыми движениями? Исследовательские подходы старой школы принесли много пользы социальным наукам, но пока они не могут нас продвинуть. Все эти вопросы можно решить с помощью новых и инновационных методов, основанных на данных. Я хочу быть в авангарде этой работы. Наука о данных даст мне возможность сделать именно это.

Итак, что такое наука о данных и почему я думаю, что могу это сделать?

По своей сути наука о данных использует данные, чтобы отвечать на вопросы и делать выводы. Теперь область науки о данных большая и постоянно расширяется. Я все еще новичок в этом мире, и я чувствую, что несколько раз в день в моей ленте будет появляться новая статья о новой причудливой модели машинного обучения, которая может предсказать какой-то неясный результат, о существовании которого я даже не знал. Поле большое. При этом переход к науке о данных был естественным продолжением исследований, которыми я уже занимался! Я хочу поднять свои способности на ступень выше простых t-тестов и моделей SLR.

Диаграмма Венна для науки о данных. Вы, наверное, видели это раньше, так как оно появляется почти при каждом введении в эту область, но это происходит потому, что это полезная визуализация некоторых важных навыков. Традиционная диаграмма Венна в науке о данных состоит из трех компонентов: хакерских навыков, математических и статистических знаний и существенного опыта.

На пересечении последних двух я и оказался перед тем, как начать это путешествие. Я проводил традиционные исследования. Я понял приличное количество статистических данных, достаточное, чтобы провести исследование и определить достоверность того, что я нашел. У меня также было сильное политическое образование, поэтому я мог задавать обоснованные вопросы и понимать, что изучаю. Я мог бы объяснить вам, почему система одномандатных округов порождает две партии или почему некоторые избирательные системы ранжированного выбора могут быть немонотонными. Чего мне не хватало, так это первого компонента, шутливо названного «хакерскими навыками».

Не поймите меня неправильно, я бы не сказал, что был технически безграмотным, и я хорошо разбирался в основах R и RStudio. Я был далеко не достаточно квалифицирован, чтобы углубиться в дисциплину и начать работу, которую я хотел. Вот что побудило меня начать этот путь к тому, чтобы стать специалистом по данным!

Куда я хочу пойти с этим

Это возвращает нас к тому, почему я хотел стать специалистом по данным. Перед нашим обществом стояли и остаются важные вопросы, на которые я хочу помочь ответить. Примером того, чем я увлечен, являются выборы. Это также яркий пример того, как наука о данных может использоваться в политике. Я давно являюсь последователем FiveThirtyEight, и они отлично справляются с демонстрацией науки о политических данных. Но что, если бы мы могли пойти дальше?

Если вы вообще следите за американской политикой, полагаю, вы уже слышали это раньше: пригороды восстают против Трампа. Но что, если бы мы могли это предсказать? Один проект, который я имею в виду, именно такой. Разработка модели, которую можно использовать для прогнозирования того, «перевернется» ли пригородный округ, которым руководил Дональд Трамп в 2016 году, на выборах 2016 года с использованием данных об округах до промежуточных выборов 2018 года. Я хотел бы использовать модель, которая может классифицировать округа как районы, которые могут «перевернуться» в зависимости от тенденций, которые привели к перевороту в 2018 году. Если модель надежна, то эта модель может быть ценным инструментом для определения стратегии кампании во время выборов 2020 года.

Другой проект, который меня интересует, относится к миру спорта. В последние годы профессиональный спорт преуспел в использовании науки о данных, и во время игр экраны часто мигают с различной конкретной статистикой. Это не значит, что можно сделать намного больше. Я хотел бы построить модель, которая использовала бы футбольные данные и определяла вероятность того, что команда вырвет вперед во втором тайме. Как человек, который провел около четырнадцати лет своей жизни в Атланте, я много-много раз слышал счет «28 к 3». Если вы не слышали этого раньше, это отсылка к Суперкубку 51, в котором «Нью-Ингленд Пэтриотс» отыграли 25 очков в перерыве и обыграли «Атланта Фэлконс» со счетом 34:28. Это было душераздирающе. Если оставить в стороне эмоции, что, если бы мы могли предсказать и это? Именно для этого можно использовать классификационную модель. Подобная информация может быть использована спортивными психологами и тренерами для повышения психологической стойкости команд и предотвращения крупных камбэков. С другой стороны, его можно использовать, чтобы научиться манипулировать умственной слабостью.

Наконец, я хочу вернуться к проекту, который поставил меня на этот путь, изучая махинации в политических округах и используя данные для определения наиболее эффективного способа организации нашей избирательной системы. Это можно решить разными способами, и я надеюсь продолжать изучать новые способы, которыми я мог бы заняться одним из моих любимых исследовательских проектов.

Это всего лишь несколько приложений, которыми я увлечен, и которые объясняют, почему я хочу стать специалистом по данным. Я учусь чуть больше месяца, и я уже далеко от того, что было, когда я начал программу. Я столкнулся с несколькими наборами данных и разобрался с несколькими моделями машинного обучения. Тем не менее, есть еще так много всего.

По мере того, как я продолжаю учиться и расти, я надеюсь, что смогу решать все большие и большие проблемы. Сейчас это кажется пугающим, так как поле невероятно велико и расширяется с каждой секундой, но я взволнован и готов ставить одну ногу перед другой, пока иду по этому пути.