Это будет серия блогов, в которых я буду делиться фундаментальными концепциями статистики, которые необходимы специалисту по данным или аналитику данных.

Прежде чем начать, я хочу, чтобы вы задали себе вопрос. Когда вы слышите слово "статистика", что первое приходит вам на ум?

Давайте начнем..

Зачем нам нужна статистика?

Вы наверняка слышали выражение «Данные — это богатство». Да, данные — это богатство, потому что в последние несколько лет наблюдается быстрый рост технологий, основанных на данных. Организации вкладывают много средств в эти технологии. С помощью данных они могут сделать свои продукты более ориентированными на клиента. Для разработки таких продуктов им нужны данные, но эти данные будут в чистом виде. Чтобы извлечь полезную информацию из необработанных данных, они будут применять несколько аналитических методов, которые представляют собой не что иное, как статистику. Чтобы собрать это вместе,

"Статистика — это не что иное, как наука о сборе, организации и анализе данных".

Для большей наглядности рассмотрим простой пример, где собственно используется статистика, для этого пойдём в начальную школу. Преподаватель естествознания провел классный тест для 30 учащихся. Преподаватель хочет узнать средний балл учащихся. Для этого сначала лектор соберет баллы каждого студента и подсчитает сумму всех баллов, а затем разделит ее на общее количество студентов, сдавших тест.

Теперь вы знаете основное определение статистики. Давайте посмотрим типы:

Типы статистики:

Статистика бывает двух типов: Описательная статистика и Выводная статистика.

Описательная статистика. Она состоит из организации и обобщения необработанных данных. Проще говоря, это используется для анализа, осмысленного описания необработанных данных. Здесь мы не будем делать никаких выводов.

  • Мера центральной тенденции, мера дисперсии/разброса — вот несколько подходов

Пример. Нахождение среднего значения. возраст учащихся в классе?

Выводная статистика. Делает прогнозы для большого количества (совокупности) данных, рассматривая выборочные данные (выборку). Он состоит из различных методов, путем создания некоторых измерений для формирования некоторых выводов. Здесь «вывод» означает поиск информации в выборочных данных, что называется логической статистикой.

  • Значение P, Z-тест, t-тест, критерий хи-квадрат — вот несколько методов.

Пример. Являются ли средние значения рост учеников в классе (выборочные данные) равен среднему. высота всего университета (данные о населении) ?

Для выбора выборочных данных из данных о населении нам нужно выбрать выборку таким образом, чтобы она содержала все свойства совокупности. Вот некоторые из различных методов выборки:

  • Простая случайная выборка:здесь каждый член совокупности (N) имеет равные шансы быть выбранным для вашей выборки (n).
  • Стратифицированная выборка. Здесь мы будем делить данные о населении на непересекающиеся группы, что означает, что мы создаем подгруппы с уникальными членами по отношению к другим группам. Из каждой группы мы будем выбирать выборку данных, чтобы она содержала все типы выборочных данных.

  • Систематическая выборка. Здесь мы будем выбирать каждую n-ю запись из совокупности, которая будет частью выборки. На изображении ниже каждый третий человек выбран в качестве образца.

  • Удобная выборка:здесь выборка выбирается таким образом, что только конкретный заинтересованный участник будет участвовать или выбран. Давайте представим, что в организации группа исследователей поделилась ссылкой на опрос по науке о данных со всеми в организации, и люди, которые заинтересованы или связаны с этой областью, будут участвовать в опросе.

Надеюсь, я дал вам некоторое представление об основах статистики. В следующих блогах мы узнаем о них больше.

Спасибо за прочтение.

Если у вас есть какие-либо сомнения, вы можете связаться со мной по адресу:

LinkedIn: https://www.linkedin.com/in/mouli-siramdasu-b63505143/