Введение

Вообще говоря, в ведущих технологических компаниях, таких как FANG (Facebook, Amazon, Netflix, Google) в Силиконовой долине, есть два типа специалистов по данным. Вот как бы я разделил их на эти 2 лагеря.

1. Специалисты по обработке и анализу данных: аналитика/логический вывод

Это люди, чья повседневная работа обычно включает сбор данных, проведение аналитики и экспериментов, обмен отчетами и оценочными таблицами о состоянии продукта и оттоке клиентов, а также об эффективности маркетинговых кампаний.

После анализа данных их часто просят разработать инновационные идеи и предложения по улучшению характеристик продукта и проверить эти новые идеи с помощью таких методов, как A/B-тестирование.
Таким образом, эти люди используют данные, чтобы «рассказать историю» и принять бизнес-решения.

Большинство из них связано с статистикой, математикой, экономикой, психологией, физикой или другими количественными, но не компьютерными науками.

Диапазон заработной платы для этого трека обычно не так хорош, как у инженера-программиста или инженера по машинному обучению, как правило, на 15–20% ниже, но преимущество этого трека в том, что на него гораздо проще попасть или найти работу.

Это также может стать отличным краеугольным камнем для тех, кто хочет в дальнейшем заняться машинным обучением.

2. Специалисты по обработке и анализу данных: разработка машинного обучения/разработка алгоритмов

Люди, добившиеся больших успехов на этом поприще, обычно являются усердными учеными-компьютерщиками или инженерами-программистами. Они понимают базовые или даже продвинутые теории машинного обучения, реализуют идеи и добиваются успеха.

Самым большим уникальным преимуществом для этих инженеров по машинному обучению или разработчиков алгоритмов является то, что они могут быстро преобразовывать идеи в прототип и создавать исходный код производственного уровня, который эффективно реализует модели машинного обучения в производственной или внешней клиентской среде благодаря их опыту компьютерной инженерии. .

Зарплата инженера по машинному обучению, по крайней мере, на уровне инженера-программиста, если не намного выше. Планка для того, чтобы попасть на путь инженера по машинному обучению, высока. Обычно это требует хорошего понимания теории и практики машинного обучения, а также твердых навыков разработки программного обеспечения.

Таблица 1: сравнение навыков для двух направлений специалистов по обработке и анализу данных: аналитика/вывод и машинное обучение/алгоритм

Эта статья будет посвящена аналитике/выводу и проведет вас через мои 7 шагов, чтобы подготовиться к собеседованию на должность специалиста по обработке и анализу данных.

Подготовка

1. SQL

SQL — это язык программирования, который должен знать любой специалист по анализу данных.

Тем не менее, многие выпускники колледжей или молодые специалисты начинают поиск работы, не имея четкого представления о SQL, или борются с вопросами кодирования , что в конечном итоге стоит им работы их мечты.

Собеседование по SQL может носить и другие названия, такие как технический анализ; во время собеседования в компании FAANG вас попросят выполнить ряд операций SQL для извлечения данных и идей, а также ответить на дополнительные вопросы об их продуктах.

(*) FAANG: Facebook, Amazon, Apple, Netflix и Google.

Имея таблицу с датами регистрации пользователей и их зарегистрированными странами, напишите запрос, чтобы получить количество новых ежедневных пользователей, присоединившихся за последние 30 дней, по двум нашим основным странам.

1. user_id |BIGINT
2.join_at | ДАТА
3. страна | ВАРЧАР

Как приготовиться

а. Если вы абсолютный новичок:

Подумайте о том, чтобы пройти онлайн-курс SQL, чтобы понять SQL, а затем перейти к практике кодирования.

Ресурс для рассмотрения: Cracking the SQL Interview для специалистов по данным, чтобы шаг за шагом изучить базовые операторы SQL SELECT для расширенных функций WINDOW, с множеством заданий по кодированию для закрепления вашего обучения.

б. Если вы опытный пользователь SQL:

Нет лучшего способа подготовиться к собеседованию по SQL, чем выполнять упражнения по программированию.

Ресурс для рассмотрения: sqlpad.io, где вы можете попрактиковаться и решить 80 вопросов для собеседования по кодированию SQL.
Ресурс для рассмотрения: sqlpad.io, где вы можете попрактиковаться и решить 80 вопросов для собеседования по кодированию SQL:

http://sqlpad.io/курс

в. Обратите особое внимание на функции WINDOW.

WINDOW-функции — это семейство утилит SQL, которые часто задают на собеседовании при приеме на работу специалиста по данным.
https://sqlpad.io/

Написание безошибочного запроса к WINDOW-функции может оказаться довольно сложной задачей для любых кандидатов, особенно для тех, кто только начинает работать с SQL. Чтобы освоить эти функции, требуется время и практика.

2. Чувство продукта

Одной из основных обязанностей специалистов по данным является извлечение информации из данных и работа с менеджерами по продукту и техническими командами для разработки действенных планов по улучшению продукта. Подумайте, как бы вы измеряли успех различных частей продукта. Как вы думаете, почему текстовое поле расположено именно в этом месте? Что вы можете сделать, чтобы улучшить его?

Примеры вопросов

  • Если бы доход упал за неделю, на какие показатели вы бы посмотрели, чтобы понять и почему?
  • Как бы вы оценили работоспособность нашей функции поиска товаров?

Как приготовиться

  1. Я настоятельно рекомендую прочитать эту книгу Бережливая аналитика: «Используйте данные, чтобы быстрее построить лучший стартап (серия бережливых продуктов), которая дает вам полное представление о том, как начинающие компании используют аналитику для принятия решений о продуктах. Ведущие технологические компании, особенно в Силиконовой долине, независимо от их размера, склонны считать себя стартапом, по крайней мере, с мышлением стартапа в развитии компании.
  2. Если у вас еще есть время, подумайте о том, чтобы прочитать эту книгу: Взлом PM-интервью. Если у вас мало времени, я пройдусь по этим трем главам: продукт, тематические исследования, поведенческий вопрос.

3. Обработка данных с помощью Python/R

Интервьюер оценит ваши навыки выполнения основных операций на Python/R, двух самых популярных языках программирования, в большинстве групп специалистов по данным в Силиконовой долине.

Плохая новость заключается в том, что у вас, скорее всего, даже не будет шанса на телефонное интервью, если вы не знаете ни одного из двух языков.

Хорошая новость заключается в том, что вам на самом деле не нужно знать их обоих. Выберите любой из них и станьте в нем очень хороши. Создайте проект, используя R или Python.

Дополнительное примечание: по моим наблюдениям, весьма вероятно, что Python станет доминирующим игроком из-за его большой экосистемы. Это общий язык программирования, который намного проще в производстве и обслуживании модели Python в Интернете по сравнению с R.

Если вы новичок в R или Python и выбираете язык для начала, я бы выбрал Python.
Раньше я был активным пользователем R и выступал на useR!, но полностью перешел на Python через 5 лет. назад и ни разу об этом не пожалел.

В дополнение к базовой обработке данных вас, скорее всего, попросят выполнить серию анализов, визуализаций или моделирования с наборами данных, чтобы убедиться, что вы будете работать с инструментом и получите представление об уровне вашего опыта.

Примеры вопросов

Считайте CSV-файл в Python/R, обработайте недостающие данные, создайте и обучите модель классификации, оцените ее производительность, подготовьте отчет и поделитесь записной книжкой Jupiter с интервьюером.

а. Для людей с питоном

Для людей, плохо знакомых с Python: в datacamp есть классы, которые охватывают панды, matplotlib, морского происхождения и достаточно хороши для вас, чтобы начать

После того, как вы ознакомились с базовой обработкой данных, вы можете перейти к научным библиотекам для обучения, в которых есть несколько отличных руководств, включая обработку данных, выбор функций и моделирование с использованием реальных данных.

4. А/Б-тестирование

A/B-тестирование — это статистическая основа, которая помогает проверить идею или теорию с помощью данных.

Например, менеджер по продукту хочет знать, может ли изменение цвета кнопки «Купить» с зеленого на синий стимулировать увеличение количества покупок. Как специалист по данным, вы должны работать с менеджером по продукту и, довольно часто, с командой инженеров (может помочь реализовать настройки тестирования) для разработки плана тестирования.

Вам нужно решить, по крайней мере, сколько людей увидят разные цвета кнопки (размер выборки), и сколько дней будет проходить тестирование (обычно кратное неделе, 7 дням), и где оно должно выполняться (США). только или в некоторых других небольших странах на случай, если группа тестирования потерпит неудачу, вы не хотите иметь очень негативное влияние на доход).

Ключевое допущение A/B-тестирования заключается в том, что контрольная группа и группа тестирования должны быть независимыми. Вам, вероятно, зададут несколько вопросов, связанных с этим предположением.

Вам также необходимо понимать ключевые понятия, такие как эффект новизны, эффект обучения, A/A-тестирование, парадокс Симпсона и т. д.

Примеры вопросов

Команда инженеров только что изобрела виджет людей, которых вы можете знать. Если это реализовано, пользователь увидит своих друзей в правом-левом углу своей домашней страницы. Как вы разрабатываете эксперимент, чтобы решить, следует ли нам запускать эту функцию или нет?

Как приготовиться

У Udacity есть бесплатный вводный курс, который проводят практики из Google, который я очень рекомендую. Пока вы проходите этот курс и чувствуете себя комфортно с ключевыми понятиями и выполняете домашние задания, вы должны ответить на большинство вопросов, связанных с A/B-тестированием.

Примечание: очень часто вас будут просить дать рекомендации, основанные на различных сценариях, например, если результаты значительны, что должна делать команда по маркетингу продукта, и наоборот.

Чтобы ответить на этот вопрос, всегда используйте структуру, например: если она подтверждается значительным положительным результатом, удвойте ставку на этот подход, распространите эту историю успеха на другие рынки и повторите тест.

Если окажется, что результаты не значимы или значимы, но отрицательны, выдвигайте новые теории и начинайте тестировать новые идеи.

Это бесконечный цикл новых идей/предложений => A/B-тестирования => рекомендаций 😃.

5. Статистика/статистический вывод

Как специалист по данным, вы, скорее всего, столкнетесь со многими ситуациями, происходящими в реальном мире, например, с отсутствующими данными, несбалансированными выборками, как определить размер выборки, выполнить проверку гипотез, сформировать разумные предположения, объяснить своим бизнес-лидерам, что означает интервал значимости. . Поэтому навыки статистики необходимы, чтобы успешно пройти собеседование с специалистом по данным.

Пример вопроса

  • Что такое ошибка типа I и типа II, как вы объясните p-значение нетехническим людям? Каковы предположения для двухвыборочного t-критерия?

Вы можете попрактиковаться в вопросах статистики на brilliant.org, где мне было довольно легко освежить свои навыки подготовки вопросов для интервью по статистике.

6. Вероятность

Примечание: вопросы вероятности — это не то же самое, что вопросы статистики. Вы можете думать, что вопросы вероятности больше связаны с математикой, а вопросы статистики больше связаны с реальными данными.

Сколько в среднем бросков нужно бросить 2 игральным кубикам со значениями от 1 до 6, чтобы сумма на двух кубиках оказалась больше 10?

brilliant.org — хороший ресурс

7. Поведенческие вопросы

Поведенческие вопросы, вероятно, являются самой простой частью подготовки, которая имеет наибольшую рентабельность инвестиций (окупаемость инвестиций), но многие люди тратят на это очень мало времени и застигнуты врасплох такими вопросами, как «Расскажите мне, когда вы не согласились со своим боссом».

Примеры вопросов

  • Расскажите о своем самом большом провале/успехе/любимом проекте.

Опишите непопулярные решения, которые вы приняли вместе с продуктовой командой. Как вы справились с ситуацией и реализовали ее?

Перечислите свои прошлые 5 проектов с интересными историями, используя структуру SAR (ситуация, действия и результаты), чтобы продемонстрировать свое лидерство, успехи, неудачи/ошибки, проблемы (разногласия с вашим менеджером, коллегой). Найдите партнера и попрактикуйтесь в имитационном интервью. и получить их отзывы.
Важно, чтобы ваши истории были «содержательными», и будьте готовы, когда интервьюер углубляется в детали.

Еще один ресурс, который следует учитывать, — это принцип высшего руководства Amazon.

Заключение

Это 7 областей, на которых я рекомендую сосредоточиться при собеседовании с аналитиками/специалистами по обработке данных.

Я надеюсь, что они будут полезны, и если у вас есть какие-либо вопросы, пожалуйста, не стесняйтесь обращаться ко мне.

румейсайилдирим[email protected]