Вопросы и ответы на собеседовании по Data Science

1. Как бы вы создали таксономию для определения основных тенденций клиентов в неструктурированных данных?

Лучший способ подойти к этому вопросу - упомянуть, что лучше всего посоветоваться с владельцем бизнеса и понять его цели, прежде чем категоризировать данные. Сделав это, всегда полезно следовать итеративному подходу, выбирая новые образцы данных и соответствующим образом улучшая модель, проверяя ее точность, запрашивая отзывы от заинтересованных сторон бизнеса. Это помогает гарантировать, что ваша модель дает действенные результаты и доказывает свою эффективность с течением времени.

2. Python или R - что бы вы предпочли для текстовой аналитики?

Лучшим возможным ответом на это будет Python, потому что в нем есть библиотека Pandas, которая предоставляет простые в использовании структуры данных и высокопроизводительные инструменты анализа данных.

3. Какой метод используется для предсказания категориальных ответов?

Техника классификации широко используется в интеллектуальном анализе данных для классификации наборов данных.

4. Что такое логистическая регрессия? Или приведите пример, когда вы недавно использовали логистическую регрессию.

Логистическая регрессия, часто называемая логит-моделью, представляет собой метод прогнозирования двоичного результата на основе линейной комбинации переменных-предикторов. Например, если вы хотите предсказать, победит ли конкретный политический лидер на выборах или нет. В этом случае результат прогноза будет двоичным, то есть 0 или 1 (выигрыш / проигрыш). Переменными предикторами здесь будут количество денег, потраченных на предвыборную агитацию конкретного кандидата, количество времени, потраченного на агитацию, и т. Д.

5. Что такое рекомендательные системы?

Подкласс систем фильтрации информации, предназначенных для прогнозирования предпочтений или оценок, которые пользователь поставит продукту. Рекомендательные системы широко используются в фильмах, новостях, исследовательских статьях, товарах, социальных тегах, музыке и т. Д.

6. Почему очистка данных играет жизненно важную роль в анализе?

Очистка данных из нескольких источников для преобразования их в формат, с которым могут работать аналитики или специалисты по обработке данных, является обременительным процессом, потому что - по мере увеличения количества источников данных время, необходимое для очистки данных, увеличивается в геометрической прогрессии из-за количества источников и объем данных, собранных в этих источниках. Простая очистка данных может занять до 80% времени, что делает ее важной частью задачи анализа.

7. Различать одномерный, двумерный и многомерный анализ.

Это методы описательного статистического анализа, которые можно дифференцировать в зависимости от количества переменных, задействованных в данный момент времени. Например, круговые диаграммы продаж на основе территории включают только одну переменную и могут быть названы одномерным анализом.

Если анализ пытается понять разницу между двумя переменными во времени, как на диаграмме рассеяния, то это называется двумерным анализом. Например, анализ объема продаж и расходов можно рассматривать как пример двумерного анализа.

Анализ, который имеет дело с изучением более двух переменных для понимания влияния переменных на ответы, называется многомерным анализом.

8. Что вы понимаете под термином «нормальное распределение»?

Данные обычно распределяются по-разному, с уклоном влево или вправо, или все это может быть перемешано. Однако есть вероятность, что данные распределяются вокруг центрального значения без какого-либо смещения влево или вправо и достигают нормального распределения в форме колоколообразной кривой. Случайные величины распределены в виде симметричной колоколообразной кривой.

9. Что такое линейная регрессия?

Линейная регрессия - это статистический метод, при котором оценка переменной Y прогнозируется на основе оценки второй переменной X. X называется переменной-предиктором, а Y - переменной критерия.

10. Что такое интерполяция и экстраполяция?

Оценка значения из 2 известных значений из списка значений - это интерполяция. Экстраполяция - это приближение значения путем расширения известного набора значений или фактов.

Ознакомьтесь с: Основные вопросы и ответы на собеседовании в области науки о данных