Наиболее частые вопросы собеседования для вакансий в области Data Science

Вы когда-нибудь сталкивались с собеседованием при приеме на работу в Data Science?

В случае, если вы этого не сделали, я уверен, что вы готовитесь к одному и столкнетесь достаточно скоро.

Когда дело доходит до проведения собеседования, которое выиграет, вам нужно подготовиться к трем шагам.

1- Знайте, какие общие вопросы на собеседовании следует ожидать, и поймите намерение каждого из них.

2- Стратегически продумайте отличный ответ на каждый вопрос

3. Практикуйтесь в собеседовании, пока не станете максимально сильными

Чтобы помочь вам подготовиться к первому шагу, я курировал этот блог, который охватывает некоторые из наиболее часто задаваемых вопросов и ответов на собеседовании в области Data Science Job:

В. напишите уравнение линейной регрессии.

Ответ: Линейная регрессия - это линейная модель, то есть модель, которая предполагает линейную связь между входными переменными (x) и единственной выходной переменной (y). так что это уравнение можно записать как:

y = b₀ + b₁X₁ + b₂ X₂ +… + bₙXₙ, где b₀, b₁, b₂… ..bₙ - коэффициенты уравнения линейной регрессии, а X₁, X₂… .Xₙ - характеристики, соответствующие каждой точке данных в наборе данных.

В. напишите уравнение логистической регрессии.

Ответ: Логистическая регрессия предсказывает вероятность результата, который может иметь только два значения (бинарный по своей природе). Таким образом, логистическая регрессия - это алгоритм классификации для прогнозирования двоичных классов. Логистическая регрессия может быть представлена сигмовидной кривой. Уравнение сигмовидной кривой приведено ниже:

Константа (b ₀) перемещает кривую влево и вправо, а наклон (b1) определяет крутизну кривой.

Вышеприведенное уравнение можно далее обобщить для n переменных, чтобы представить логистическую регрессию, как показано ниже:

где p - вероятность успеха.

Путем простого преобразования сигмовидное уравнение можно записать в терминах отношения шансов как:

Наконец, взяв натуральный логарифм обеих сторон, мы можем записать уравнение в терминах логарифмических коэффициентов (логит), которые являются линейной функцией предикторов. Коэффициент (b ₁) - это величина, на которую логит (логарифм-шансы) изменяется при изменении на одну единицу в x:

В. Что такое кривая AUC-ROC? что он собой представляет?

Ответ: Кривая AUC - ROC - это измерение производительности для задач классификации при различных настройках пороговых значений. ROC - это кривая вероятности, а AUC - степень или мера разделимости. Он говорит о том, насколько модель способна различать классы. Чем выше AUC, тем лучше модель предсказывает метки классов.

В. Запишите Допущения линейной регрессии.

Ответ: Допущения линейной регрессии представлены как:

Линейная связь между объектами X и меткой y.
Нормальное распределение членов ошибки: члены ошибки нормально распределены со средним нулем.
Независимость условий ошибки: термины ошибки не должны зависеть друг от друга
Постоянная дисперсия ошибок, также известная как гомоскедастичность: дисперсия не должна увеличиваться (или уменьшаться) при изменении значений ошибки.

(Примечание: термины ошибки = остатки)

В. запишите некоторые способы обработки пропущенных значений и выбросов.

Ответ: Ниже приведены некоторые способы обработки отсутствующих значений в наборе данных:

Игнорируйте строку данных. (Не рекомендуется, если вы собираетесь подгонять модель)
Используйте глобальную константу для заполнения отсутствующих значений.
Используйте атрибут Среднее / Медиана / Режим для вменения пропущенных значений. (предпочтительна медиана, поскольку на нее не сильно влияют выбросы)
Используйте алгоритм интеллектуального анализа данных, чтобы предсказать наиболее вероятное значение. (KNN Imputation).

Ниже приведены некоторые общие подходы к обработке выбросов в наборе данных:

Отбросьте записи о выбросах.
Замените выбросы новым значением (можно использовать Среднее / Медианное / Режим).
Преобразование и биннинг значений.
Отдельно обрабатывать данные о выбросах

В. Перечислите несколько способов выбора функций.

Ответ: Ниже приведены некоторые распространенные способы выбора функций:

Прямой выбор

Обратное устранение

Устранение рекурсивной функции: rfe в Python

Лассо-регрессия (только для задач регрессии)

Ручной выбор подмножества: выбор подмножества вручную можно выполнить, отбрасывая переменные на основе их p-значений (обозначает статистическую значимость) или VIF (коэффициент инфляции дисперсии)

В. Что такое PCA. Как это используется?

Ответ PCA - это метод уменьшения размерности, который стремится уменьшить количество функций из большого пула функций, чтобы упростить модель и в то же время решить такие проблемы, как мультиколлинеарность. После PCA, как правило, рекомендуется создать график Scree (линейный график совокупного объясненного_variance_ratio_ в зависимости от количества компонентов), который даст нам идеальное количество переменных (ПК), которые объяснили бы определенную величину отклонения (скажем, 90%).

PCA создает ПК (основные компоненты), каждый из которых представляет собой линейную комбинацию исходных переменных функции. Если набор данных содержит p объектов, каждый компьютер является p-мерным вектором. Таким образом, определение точных оригинальных характеристик может оказаться затруднительным. Но мы сможем получить представление о вещах, если будем использовать объясненную_вариантность_ratio, поскольку это даст нам представление о важности каждой исходной функции на каждом ПК.

В. Что такое центральная предельная теорема?

Ответ: Выборочное распределение, которое в основном представляет собой распределение выборочных средних значений совокупности, обладает некоторыми интересными свойствами, которые в совокупности называются центральной предельной теоремой, которая гласит, что независимо от того, как распределяется исходная совокупность, выборочное распределение будет следовать этим трем параметрам. характеристики -

1. Среднее значение распределения выборки (𝜇𝑋̅) = среднее значение по совокупности ()

2. Стандартное отклонение распределения выборки (стандартная ошибка) = √𝑛, где σ - стандартное отклонение генеральной совокупности, а n - размер выборки.

3. При n> 30 выборочное распределение становится нормальным.

Внимательно прочтите этот блог, чтобы подготовиться к вышеуказанным вопросам и получить уверенные ответы.

Профессиональный совет: убедитесь, что вы говорите о соответствующих навыках и сертификатах, и связываете их с ответами, где это необходимо. Это определенно произведет на собеседника сильное, неизгладимое впечатление о вас.

Я скоро добавлю в этот список другие вопросы, так что следите за этим и добавьте эту запись в закладки.

Пожалуйста, оставьте свои комментарии ниже, если вы хотите, чтобы я написал что-то или предложил какие-либо улучшения. Вы также можете связаться со мной в моем профиле LinkedIn. Также спасибо Ануй Шукла за предоставленный список вопросов и разрешение написать на них ответы.

Спасибо за чтение. Хорошего дня.

Наиболее частые вопросы собеседования для вакансий в области Data Science

Вопросы по теме