Вы когда-нибудь сталкивались с собеседованием при приеме на работу в Data Science?
В случае, если вы этого не сделали, я уверен, что вы готовитесь к одному и столкнетесь достаточно скоро.
Когда дело доходит до проведения собеседования, которое выиграет, вам нужно подготовиться к трем шагам.
1- Знайте, какие общие вопросы на собеседовании следует ожидать, и поймите намерение каждого из них.
2- Стратегически продумайте отличный ответ на каждый вопрос
3. Практикуйтесь в собеседовании, пока не станете максимально сильными
Чтобы помочь вам подготовиться к первому шагу, я курировал этот блог, который охватывает некоторые из наиболее часто задаваемых вопросов и ответов на собеседовании в области Data Science Job:
В. напишите уравнение линейной регрессии.
Ответ: Линейная регрессия - это линейная модель, то есть модель, которая предполагает линейную связь между входными переменными (x) и единственной выходной переменной (y). так что это уравнение можно записать как:
y = b₀ + b₁X₁ + b₂ X₂ +… + bₙXₙ, где b₀, b₁, b₂… ..bₙ - коэффициенты уравнения линейной регрессии, а X₁, X₂… .Xₙ - характеристики, соответствующие каждой точке данных в наборе данных.
В. напишите уравнение логистической регрессии.
Ответ: Логистическая регрессия предсказывает вероятность результата, который может иметь только два значения (бинарный по своей природе). Таким образом, логистическая регрессия - это алгоритм классификации для прогнозирования двоичных классов. Логистическая регрессия может быть представлена сигмовидной кривой. Уравнение сигмовидной кривой приведено ниже:
Константа (b ₀) перемещает кривую влево и вправо, а наклон (b1) определяет крутизну кривой.
Вышеприведенное уравнение можно далее обобщить для n переменных, чтобы представить логистическую регрессию, как показано ниже:
где p - вероятность успеха.
Путем простого преобразования сигмовидное уравнение можно записать в терминах отношения шансов как:
Наконец, взяв натуральный логарифм обеих сторон, мы можем записать уравнение в терминах логарифмических коэффициентов (логит), которые являются линейной функцией предикторов. Коэффициент (b ₁) - это величина, на которую логит (логарифм-шансы) изменяется при изменении на одну единицу в x:
В. Что такое кривая AUC-ROC? что он собой представляет?
Ответ: Кривая AUC - ROC - это измерение производительности для задач классификации при различных настройках пороговых значений. ROC - это кривая вероятности, а AUC - степень или мера разделимости. Он говорит о том, насколько модель способна различать классы. Чем выше AUC, тем лучше модель предсказывает метки классов.
В. Запишите Допущения линейной регрессии.
Ответ: Допущения линейной регрессии представлены как:
- Линейная связь между объектами X и меткой y.
- Нормальное распределение членов ошибки: члены ошибки нормально распределены со средним нулем.
- Независимость условий ошибки: термины ошибки не должны зависеть друг от друга
- Постоянная дисперсия ошибок, также известная как гомоскедастичность: дисперсия не должна увеличиваться (или уменьшаться) при изменении значений ошибки.
(Примечание: термины ошибки = остатки)
В. запишите некоторые способы обработки пропущенных значений и выбросов.
Ответ: Ниже приведены некоторые способы обработки отсутствующих значений в наборе данных:
- Игнорируйте строку данных. (Не рекомендуется, если вы собираетесь подгонять модель)
- Используйте глобальную константу для заполнения отсутствующих значений.
- Используйте атрибут Среднее / Медиана / Режим для вменения пропущенных значений. (предпочтительна медиана, поскольку на нее не сильно влияют выбросы)
- Используйте алгоритм интеллектуального анализа данных, чтобы предсказать наиболее вероятное значение. (KNN Imputation).
Ниже приведены некоторые общие подходы к обработке выбросов в наборе данных:
- Отбросьте записи о выбросах.
- Замените выбросы новым значением (можно использовать Среднее / Медианное / Режим).
- Преобразование и биннинг значений.
- Отдельно обрабатывать данные о выбросах
В. Перечислите несколько способов выбора функций.
Ответ: Ниже приведены некоторые распространенные способы выбора функций:
Прямой выбор
Обратное устранение
Устранение рекурсивной функции: rfe в Python
Лассо-регрессия (только для задач регрессии)
Ручной выбор подмножества: выбор подмножества вручную можно выполнить, отбрасывая переменные на основе их p-значений (обозначает статистическую значимость) или VIF (коэффициент инфляции дисперсии)
В. Что такое PCA. Как это используется?
Ответ PCA - это метод уменьшения размерности, который стремится уменьшить количество функций из большого пула функций, чтобы упростить модель и в то же время решить такие проблемы, как мультиколлинеарность. После PCA, как правило, рекомендуется создать график Scree (линейный график совокупного объясненного_variance_ratio_ в зависимости от количества компонентов), который даст нам идеальное количество переменных (ПК), которые объяснили бы определенную величину отклонения (скажем, 90%).
PCA создает ПК (основные компоненты), каждый из которых представляет собой линейную комбинацию исходных переменных функции. Если набор данных содержит p объектов, каждый компьютер является p-мерным вектором. Таким образом, определение точных оригинальных характеристик может оказаться затруднительным. Но мы сможем получить представление о вещах, если будем использовать объясненную_вариантность_ratio, поскольку это даст нам представление о важности каждой исходной функции на каждом ПК.
В. Что такое центральная предельная теорема?
Ответ: Выборочное распределение, которое в основном представляет собой распределение выборочных средних значений совокупности, обладает некоторыми интересными свойствами, которые в совокупности называются центральной предельной теоремой, которая гласит, что независимо от того, как распределяется исходная совокупность, выборочное распределение будет следовать этим трем параметрам. характеристики -
1. Среднее значение распределения выборки (𝜇𝑋̅) = среднее значение по совокупности ()
2. Стандартное отклонение распределения выборки (стандартная ошибка) = √𝑛, где σ - стандартное отклонение генеральной совокупности, а n - размер выборки.
3. При n> 30 выборочное распределение становится нормальным.
Внимательно прочтите этот блог, чтобы подготовиться к вышеуказанным вопросам и получить уверенные ответы.
Профессиональный совет: убедитесь, что вы говорите о соответствующих навыках и сертификатах, и связываете их с ответами, где это необходимо. Это определенно произведет на собеседника сильное, неизгладимое впечатление о вас.
Я скоро добавлю в этот список другие вопросы, так что следите за этим и добавьте эту запись в закладки.
Пожалуйста, оставьте свои комментарии ниже, если вы хотите, чтобы я написал что-то или предложил какие-либо улучшения. Вы также можете связаться со мной в моем профиле LinkedIn. Также спасибо Ануй Шукла за предоставленный список вопросов и разрешение написать на них ответы.
Спасибо за чтение. Хорошего дня.