Знакомит со статистикой, ядром статистики, инструментами для статистики и статистическими ресурсами.

Говорить о статистике означает говорить о ранней истории человеческой цивилизации в сборе данных для получения информации. Статистика не новая дисциплина, она используется давно. Первоначально статистика использовалась для административных целей, таких как сбор данных о населении, упрощение системы налогообложения и организация населения для вооруженных сил. Затем статистику начали использовать в различных областях, таких как бизнес, финансы, промышленность, астрономия, наука, лингвистика и т. д. Это привело к объединению дисциплин, таких как биостатистика, психометрия и эконометрика. Однако что такое статистика?

Определение статистики

Кендал и Стюарт (1977) объясняют, что статистика — это раздел научного метода, который занимается сбором данных, собранных путем подсчета или измерения характеристик населения. Между тем, согласно Новому университетскому словарю Вебстера, статистика определяется как раздел математики, связанный со сбором, анализом, интерпретацией и представлением ряда числовых данных.

Итак, статистика - это дисциплина или научный метод для сбора, организации, обобщения, представления и анализа данных населения, включая получение обоснованных выводов и принятие разумных решений на основе определенных анализов.

Статистика широко используется, чтобы помочь нам в принятии решения. При поддержке данных и статистического анализа мы можем принимать решения, сводя к минимуму риск ошибки. Статистика помогает нам принимать решения эмпирически и объективно. Сама по себе статистика уникальна тем, что способна точно вычислить неопределенность. При этом вероятность часто играет большую роль в статистике.

В статистике есть два подполя: описательная статистика и статистика вывода.

Описательная и выводная статистика

Описательная статистика изучает сбор данных, обработку данных (обобщение и представление), описание и анализ всех данных, не делая выводов. Мы можем быстро суммировать данные, используя числа и графики, что делает описательную статистику особенно полезной [2]. В целом предмет описательной статистики включает расчет центральной тенденции (охватывающей среднее значение, медиану и моду), частотное распределение, значения распределения данных и визуализацию данных в графической форме.

Затем статистический вывод узнает о процессе того, как делать выводы или решения на основе существующих данных. Самое главное в выводной статистике — это метод, который анализирует данные наблюдения (выборку), чтобы сделать выводы обо всех данных (населении) [2]. Предметом статистического вывода является проверка гипотез, оценка числовых характеристик, корреляция связей внутри данных и т. д. [1].

Общее различие между этими двумя типами статистики заключается в том, что описательная статистика только суммирует данные, не делая выводов, тогда как статистика логического вывода делает выводы.

Данные как основа статистики

Nield (2022) описывает такие данные, как фотография, которая представляет собой моментальный снимок истории. Устойчивая реальность и контекст не полностью охвачены, равно как и бесконечное количество переменных, определяющих историю [2]. Таким образом, можно интерпретировать, что данные — это информация, полученная из всех событий, которые могут быть использованы в качестве информации. Данные могут быть представлены в виде чисел или категорий (например, «хороший», «плохой», «высокий», «низкий» и т. д.). Есть несколько характеристик хороших данных, таких как объективность, репрезентативность, актуальность, актуальность и надежность.

Данные тесно связаны со всеми видами статистической деятельности. Данные и статистика не могут быть разделены. Мы знаем, что данные — это информация, и со статистикой мы можем обобщать и делать выводы из этой информации.

Почему статистика может быть необходима как основа науки о данных?

Наука о данных — это дисциплина о работе с данными для поиска ответов на вопросы (конечно, имеющие отношение к данным). Этапы науки о данных включают определение проблемы, сбор данных, исследование данных, анализ данных и рассказывание историй с данными. Конечной целью науки о данных является получение информации из данных. Для достижения этой конечной цели нам нужна статистика.

Таким образом, существуют различные причины, по которым статистика может быть одной из основ науки о данных. Во-первых, статистика дает вам возможность определить, можно ли ответить на поставленный вопрос, используя только данные. Он также создает точную основу для количественной оценки неопределенности. Наконец, статистика предлагает методы ясного выражения аналитических результатов. Таким образом, статистика также необходима, когда специалист по данным проверяет информацию в виде моделей, чтобы измерить уровень достоверности модели или сравнить различные полученные модели, чтобы выбрать лучшую.

Какие инструменты выбрать для статистики?

Когда мы будем работать со статистикой, нам обязательно понадобятся инструменты, облегчающие нашу работу. У нас есть несколько рекомендуемых инструментов, которые можно использовать. Во-первых, если вы не знакомы с языками программирования, вы можете использовать Google Таблицы или Microsoft Excel. Чтобы использовать Microsoft Excel, вы должны сначала установить и купить лицензию, а для использования Google Таблиц вам потребуется только учетная запись Gmail для Google Диска и подключение к Интернету. Мы рекомендуем использовать Google Sheets вместо Microsoft Excel. Если вы все еще не уверены в использовании Google Sheets, то можете прочитать эту статью.

Ниже приведена сравнительная таблица для Google Spreadsheets и Microsoft Excel:

Затем, если вы знакомы с языками программирования, мы рекомендуем использовать Python или R. Python на самом деле является языком программирования общего назначения, но большая часть Python используется для обработки данных (включая статистику). Это потому, что он поддерживается многими библиотеками и большим сообществом. Тогда сам R — это язык, ограниченный сферой статистики. Исходя из этого, мы рекомендуем использовать python вместо R.

«Ниже представлена ​​сравнительная таблица для Python и R:

Ресурсы для изучения статистики

Если вы только начинаете заниматься статистикой, у нас есть несколько рекомендуемых ресурсов (курсов), к которым вы можете получить бесплатный доступ. Во-первых, мы рекомендуем канал YouTube StatQuest с Джошем Стармером. StatQuest предоставляет множество видеороликов о статистике с интересными анимациями и пояснениями, которые очень легко понять.

Тогда мы рекомендуем веб-сайт Khan Academy. Академия Хана предоставляет множество бесплатных уроков, одним из которых является статистика и вероятность. Khan Academy предоставляет пояснения в виде видео, текста и викторин.



Наконец, мы рекомендуем курс статистики, предлагаемый Стэнфордским университетом на Coursera. Курс ведет Гюнтер Уолтер, профессор статистики из Стэнфордского университета.



Введение в статистику
«Введение в статистику
Стэнфордского университета научит вас концепциям статистического мышления, необходимым для обучения на…www.coursera.org»



Использованная литература:

[1] Дангети, П. (2017). Статистика для машинного обучения: методы изучения моделей обучения с учителем, без учителя и обучения с подкреплением с помощью Python и R (1-е изд.). Издательство Пакет.

[2] Нильд, Т. (2022). Основы математики для науки о данных: управляйте своими данными с помощью фундаментальной линейной алгебры, вероятности и статистики (1-е изд.). О'Райли Медиа.