Поскольку наука о данных — самая сексуальная работа 21-го века, и это быстро развивающаяся область в современной отрасли, и всех привлекает эта область, не зная ее с нуля, но мы должны сказать, что на рынке есть много курсов с уверенностью гарантии занятости.

Но некоторые из ложных утверждений, которые вы найдете на рынке, например, «Без технических навыков вы можете стать специалистом по данным», которые не имеют для вас никакого смысла вникать в это. Если вы планируете присоединиться к какому-либо курсу, который вам подходит, но перед этим вы должны четко определиться: «Наука о данных — это ваша чашка чая или нет», чтобы сумма, которую вы собираетесь потратить на нее, стоила того для вас. узнать что-то новое, а также сменить профессию.

Прежде всего, вы должны четко понимать, ПОЧЕМУ НАУКА ДАННЫХ?

Это только потому, что в промышленности более высокий пакет заработной платы !! Если вы так думаете и движетесь вперед, то вы на ложном пути. Всегда есть две вещи, почему вы выбираете это поле только потому, что оно вам интересно, или оно выглядит заинтересованным со стороны?? Будьте ясны с вашим ПОЧЕМУ ?? и вы можете приземлиться с этим Доменом.

В ПОЧЕМУ НАУКА ДАННЫХ!! Есть много вопросов, которые вы должны изучить для лучших будущих возможностей!!

Что такое Data Science и как работает Data Scientist??

Это зависит от того, как вы видите науку о данных с вашей точки зрения, чтобы приземлиться в этой области.

Наука о данных состоит из бизнес-знаний, математики, статистики и навыков программирования, чтобы найти идеи для решения необходимой бизнес-проблемы.

«Прежде чем стать специалистом по данным, станьте хорошим рассказчиком данных».

Наука о данных не нова на рынке, но да, название действительно увлекательное и интересное, с интересными инструментами для работы. До Data Scientist был «статистик», а теперь его заменили «Data Science». Основная и общая часть заключалась в том, чтобы иметь дело с сильными концепциями статистики и вероятности, чтобы найти понимание для решения требуемой проблемы.

Давайте разберемся на каком-то примере: Предположим, что вы владеете «Автосервисом» и ежедневно у вас есть 300 клиентов, но после того, как 150–200 клиентов будут увеличиваться в день, сотрудник будет работать с 9 до 5, и вы не сможете увеличить количество сотрудников!!

Итак, вот проблема науки о данных, чтобы сделать ваш поток доходов стабильным, а наем «N» сотрудников, похоже, не соответствует требованиям клиентов, а также вашему потоку доходов. Как Data Scientist, как вы будете решать эту проблему, давайте посмотрим:

1.) Очень простой подход будет заключаться в том, чтобы определить, что является основной проблемой на ежедневной основе, которую вы получаете, скажем, больше автомобилей с «проблемой двигателя» или любой другой и т. д. Путем анализа вы можете выяснить и определить, в какой конкретной области вы нужно больше сотрудников (скажем, вы можете проанализировать, что вам нужно нанять сотрудника, связанного с «проблемой с двигателем»), и это поможет вам нанять «конкретного сотрудника» вместо найма «N числа сотрудников».

2.) Во-вторых, вы можете работать с такой моделью, которая выручит вас в том, какой автомобиль нуждается в «Срочном обслуживании или нет», что в свою очередь поможет сэкономить время вашего сотрудника.

Итак, какие выгоды вы получили от двух вышеперечисленных пунктов для вашего «Автосервиса»:

1.) Вы можете проанализировать, чтобы нанять «конкретного сотрудника» вместо найма «N количество сотрудников».

2.) Вы можете создать модель, которая будет предсказывать, какой автомобиль нуждается в «срочном обслуживании или нет», что в свою очередь сэкономит время ваших сотрудников.

Давайте поработаем с другим примером в реальном времени, чтобы понять науку о данных и что делают специалисты по данным?

1.1) Задумывались ли вы когда-нибудь над тем, как такие компании, как Nokia, Samsung и т. д., прогнозируют цену своего нового продукта?? Придет ли какой-нибудь Основатель и скажет: «Давайте продадим этот продукт за 12 000 или 20 000»?

Выше приведена задача по науке о данных (1.1) (которая включает в себя бизнес-задачу (как предсказать цену продукта, чтобы сохранить прибыль от продукта).

Если вы являетесь владельцем компании, у вас будет простой подход, и вы запустите свой продукт по очень низкой цене по сравнению с другим доступным продуктом, то какова вероятность того, что клиент купит ваш продукт? доказать, что клиент купит ваш продукт, и здесь вы теряете свою идентичность на рынке.

Вот что анализирует Data Scientist:

1.) Самый первый этап — любая организация установит какой-то процент прибыли около 20% или 30% (что означает, что если организация получит прибыль не менее 20% или 30%, тогда только они запустят продукт, иначе нет) Мы можем назвать этот шаг «проверкой гипотез» (важная часть статистики, о которой нужно узнать).

2.) Во-вторых, Организация будет работать со своим старым клиентом, который купил их предыдущий продукт, и здесь также они установят своего рода «Фиксированного клиента». Например, из 10 тысяч клиентов не менее 50 тысяч или 1 миллион клиентов должны купить продукт. чтобы сохранить прибыль от продукта (что снова известно как «проверка гипотез»).

«Ученый по данным поймет «Бизнес-проблему» и применит знания статистики и вероятности, чтобы найти различные идеи для работы с сегментацией продукта.

Если вы новичок, вас больше волнует вопрос «с какого языка программирования начать».

Но как специалист по данным, «Аналитический подход» — это самая первая фаза, с которой нужно начинать. «Хорошие навыки программирования с нулевым аналитическим подходом не могут привести вас к желаемой работе в качестве специалиста по данным». Технические навыки — это вторая фаза для начала. с, если вы слишком сильны с творческим подходом, чтобы решить желаемую проблему в качестве Data Scientist.

Если вы новичок и хотите начать с этого домена, вот шаги, чтобы войти ??

1.) Начните ежедневно читать блоги и попытайтесь понять предметную область с нуля, попытайтесь найти альтернативные решения для существующего. Может быть, вы не получите материал, но когда вы будете работать непрерывно, вы начнете думать и понимать материал по-другому.

2.) Для того, чтобы быть специалистом по данным, аналитический подход является обязательным, и вы получите его в качестве мастера после прочтения блогов, исследовательских работ, изучения и попытки найти новое решение для существующего и внедрить его.

3.) Может быть, вы не знаете, какой «язык программирования» вам следует освоить для начала??

4.) Но «Лучший программист с меньшим аналитическим мышлением, а также статистикой и вероятностной концепцией не является хорошим специалистом по данным». воплощать в жизнь.

5.) Итак, сосредоточьтесь на статистике и вероятности с «практическим подходом», а также «теоретическим подходом».

6.) Вот форма ссылки на веб-сайт, с которой вы можете начать свое путешествие. Если вы новичок, читаете статьи, блоги и понимаете домен с нуля, https://machinelearningmastery.com/start-here/, https: //stattrek.com/ (Научи себя статистике) и https://www.mckinsey.com/.

7.) Не следите за несколькими вещами одновременно, иначе вы запутаетесь. Начните с одного. Закончите, погуглите проблемы и концепции, которые вы не поняли.

Если вы «новее», это правильный подход, следуйте ему пару месяцев. И вы можете понять каждую проблему с нуля, связанную с наукой о данных.

Давайте поработаем с интересным «кейсом». Наблюдали ли вы, как поставщики услуг, такие как «AIRTEL и IDEA», умудряются предоставлять различные предложения для конкретного клиента среди миллионов клиентов? (Много раз вы можете получить предложение за 450 рупий, и такое же предложение для вашего друга или семьи будет получено, например, за 350 рупий от AIRTEL)!! Почему это происходит??

Итак, давайте разберемся, что такое отток?

Если вы переходите с «AIRTEL» на «IDEA», это, как известно, приводит к оттоку поставщиков услуг.

Если вы переключаетесь, то «ОТМЕНА = 1» (что означает, что Клиент прекратит подписку на услуги от конкретного поставщика услуг), если нет «ОТМЕНА = 0» (что означает, что Клиент не прекратит подписку на услуги от конкретного поставщика услуг).

Таким образом, прогнозирование и предотвращение оттока очень важны для бизнеса, чтобы получать доход.

Это проблема науки о данных, и давайте посмотрим на некоторые интересные шаги, с которыми может работать ученый по данным.

Из приведенной выше проблемы мы можем проанализировать, что предсказать, собирается ли конкретный клиент сменить поставщика услуг или нет, становится серьезной проблемой для работы специалиста по данным с необходимой бизнес-проблемой.

Проще говоря, мы должны прогнозировать клиентов, которые перестанут пользоваться услугами в будущем, и сосредоточиться на них, чтобы снова вернуться к использованию услуг.

Здесь будет три основных «Бизнес-задачи», а именно:

1.) Предоплаченные клиенты (количество частных лиц, использующих предоплаченные услуги, больше, и им необходимо сосредоточиться на таких клиентах, чтобы продолжать получать доход от фиксированного количества клиентов для любого поставщика услуг, работа с такими клиентами является важным и основным фактором).

2.) Постоплатные клиенты (количество будет небольшим, но это еще один важный фактор, чтобы не потерять таких людей, которые продолжают приносить доход поставщику услуг, при этом мы можем легко нацелить таких людей на работу с одним и тем же поставщиком услуг с некоторой предварительной поддержкой клиентов для их.)

3.) Феномен раннего оттока (что означает, что есть много поставщиков услуг, которые используют некоторые «БЕСПЛАТНЫЕ» предложения в течение недели, но многие клиенты очень умны, они используют такую ​​​​услугу в течение недели, а затем переключаются на другую, и которая будет «ПОТЕРЯ» для любого поставщика услуг на рынке.Таким образом, это основная проблема, чтобы предсказать, если какой-либо поставщик услуг дает такие предложения клиентам, какова вероятность того, что после использования «БЕСПЛАТНЫХ УСЛУГ» в течение недели они перезарядят его. еще раз, и если такое поведение замечено, то это называется «Активация мошенничества», из-за которой организация должна понести «хороший убыток»).

Каковы важные функции для лучшего прогнозирования того, будет ли клиент «CHURN RATE = «1» ИЛИ «0»?

1.) Активные дни:: Общее получение дохода, когда клиент активно использует услуги.

2.) Средняя дальность звонка: время между двумя последовательными звонками, которое поможет спрогнозировать доход или прибыль в месяц на одного клиента.

3.) Максимальное количество неактивных дней: чтобы определить общее количество неактивных дней подряд для прогнозирования среднего фиксированного дохода на одного клиента.

4.)Возраст сети: важная функция, так как она покажет, сколько лет клиенту и является ли клиент новым, столкнувшимся с какой-либо проблемой при использовании услуг (здесь мы должны позаботиться о таких клиентах, поскольку они могут покинуть поставщика услуг в любое время) С другой стороны, шансы старого клиента сменить поставщика услуг очень малы, и здесь мы можем назначить «Решение» клиента как «Срочное или нет» в зависимости от того, сколько лет клиенту, а также проблема при использовании поставщика услуг.

5.) Альфа:: Его можно назвать как угодно. «Альфа» - это не что иное, как анализ прибыли «от месяца к месяцу» на одного клиента для прогнозирования доходов, что еще лучше для удержания постоянных клиентов и предоставления им таких предложений, чтобы они не переключились на другой поставщик услуг.

Небольшое исследование, чтобы узнать «Прогнозирование оттока», требует терпения, понимания бизнес-проблем и понимания набора данных, который у вас есть.

В дополнение к чтению блогов, научных статей и кейсов в реальном времени, связанных с тем, чтобы узнать, что такое Data Science и как работает Data Scientist?

Каковы исходные инструменты/программное обеспечение и язык программирования для начала?

Одной из лучших платформ для работы является «Anaconda», которая включает в себя более 1000 пакетов для Data Scientist, и обычно мы работали с «Jupyter Notebook» (лучшая платформа для визуализации, и вы можете работать с Python или R).

1.) Вы должны начать изучать Python или R, но, поскольку опыт должен начинаться с Python, а в соответствии с отраслью Python является обязательным бонусом с R.

2.) SQL — это основной язык, который вы должны начать изучать, чтобы играть с набором данных, и вы должны знать SQL заранее. Но нет необходимости заранее изучать SQL, просто поиграйте с другим набором данных, и вы изучите его бок о бок.

3.) На начальном этапе начните изучать «Таблицу», которая является мощным инструментом визуализации и поможет вам найти понимание данных.

4.) Вы должны изучить «Машинное обучение» с нуля и иметь более четкое представление о том, что такое машинное обучение. Как Data Scientist «Машинное обучение» — это всего лишь 20% вашей работы, а остальные 80% вашей работы — это понимание бизнес-проблем, очистка данных, манипулирование данными, визуализация данных.

4.) Как новичок, просто освойте выше трех пунктов в течение нескольких месяцев и поработайте над несколькими хорошими проектами, чтобы улучшить свои навыки в течение того же времени.

5.) Не прыгайте одновременно на Spark или Hadoop, часть больших данных, ясно дайте понять, что «наука о данных — это строительный блок больших данных».

6.) Сначала освойте Python, SQL, Tableau и машинное обучение, работая с другим проектом, чтобы улучшить свои навыки в одном и том же.

7.) Если вы работали с вышеуказанными шагами, то вы не хотите, чтобы кто-то направлял вас дальше после работы с проектами, и вы легко можете выбрать себя, чтобы двигаться вперед.

Прежде чем прогнозировать любую модель с помощью ML, вы должны понять бизнес-проблему и проанализировать ее, выполнив три простых шага:

1) Подумайте с точки зрения бизнеса и выдвиньте гипотезу («Гипотеза — это не что иное, как предположение и решение необходимой бизнес-проблемы»).

2) Подумайте с точки зрения клиента и выдвиньте гипотезу.

3) Подумай со своей точки зрения и выдвинь гипотезу!!

Гипотеза, которую вы собираетесь выдвинуть, может быть ошибочной, но она даст вам другую идею для решения требуемой проблемы, которая, в свою очередь, приведет к аналитическому мышлению.

Шаги, которые вы должны выполнить, чтобы решить любую проблему науки о данных или любой проект, следующим образом:

1) Найдите исследовательскую работу и документацию, связанную с конкретной проблемой науки о данных.

2) Прочитайте его и поймите бизнес-задачу. Выдвиньте гипотезу для начала.

3) Попробуйте составить блок-схему после прочтения исследовательской работы, которая, в свою очередь, поможет вам построить аналитическое мышление, и это то, что должен делать специалист по данным !! (Бонусный шаг, который может выделить вас из толпы).

4) После этого импортируйте свои данные в Excel и снова сделайте некоторую гипотезу, которая, как правило, ошибочна, но будет полезна для очень четкого понимания требуемой проблемы.

5) Визуализируйте данные с помощью Tableau, что, в свою очередь, поможет вам сделать сумасшедшую гипотезу, которая поможет вам определить, какой параметр влияет на вашу выходную переменную.

6) Импортируйте свой набор данных в «Jupyter Notebook Using Python» и поиграйте с данными, используя SQL.

Самая большая ошибка, которую совершают люди, заключается в том, что они напрямую импортируют набор данных в «Jupyter» и играют с данными, используя Python и SQL, но теряют аналитический подход, который вы узнаете, выполнив первые 5 шагов перед импортом набора данных.

Итак, чего вы ждете: «Начните свое путешествие и узнайте, является ли наука о данных вашей чашкой чая или нет».