Ну, по правде говоря, это был не тот анализ, который я хотел продемонстрировать. Я действительно хотел поразить вас, реконструировав все показатели, связанные с этим набором данных, чтобы тенденции предыдущих лет можно было использовать для прогнозирования населения отдельных стран или континентов на следующие десять лет; поскольку предыдущая заданная популяция увеличивается с шагом в 10 лет. 😐 Подождите! Вы хоть поняли, что я только что сказал?????

Если приведенная выше преамбула верна или возможна, «машина» узнала бы, как растет население, а затем сделала бы прогнозы заранее о том, каким, вероятно, будет наше население.

Не было бы это крутой идеей.

Ну, я не мог довести эту идею Эйнштейна до термоядерного синтеза.

Здесь я отдыхаю от погони за самой смелой мечтой.

Было ли это вообще возможно?

Почему никто не реализует эту идею? Ну кто знает? Мой следующий пост, вероятно, будет о том, как я реализовал свою самую смелую мечту.

Теперь приступим к анализу:

Фон

В статье CNN, которую я недавно прочитал, миллиардер Илон Маск подвергся критике за то, что написал в Твиттере, что «коллапс населения из-за уровня рождаемости представляет собой гораздо большую угрозу для цивилизации, чем глобальное потепление». По словам демографов, в этих новостях очевидно то, что, несмотря на потери в некоторых регионах мира, население мира растет и не должно сокращаться в ближайшее время — даже при более низких уровнях рождаемости, чем в прошлом. Этот простой исследовательский анализ погружается в набор данных о населении, предоставленный нам через Kaggle, чтобы лучше понять природу населения мира с 1970 по 2022 год.

Задача

Этот проект направлен на изучение набора данных о населении, чтобы лучше понять население с даты его начала до сегодняшнего дня. У меня также была сумасшедшая идея перепроектировать весь процесс, чтобы тенденции населения в предыдущие годы можно было использовать для прогнозирования населения в будущем. Однако для того, чтобы совершить этот подвиг, должно быть больше, чем просто статистика населения.

Запросы

  • Какой континент в настоящее время является самым населенным в мире?
  • Какая самая населенная страна в мире на данный момент?
  • Какой континент в настоящее время является наименее населенным в мире?
  • Какая самая малонаселенная страна в мире на данный момент?
  • Есть ли связь между числовыми характеристиками численности населения по годам?

Понимание данных

Набор данных из Kaggle просто показывает население стран в 10-летнем периоде, за исключением 2015 и 2022 годов. Помимо указанного населения, он также демонстрирует темпы роста населения, площадь, плотность, процент населения, а также различные континенты и их код.

Обработка данных:

  1. Каждый анализ начинается с импорта соответствующих библиотек, которые могут облегчить работу «кодера». Вот почему существуют физические библиотеки — они облегчают нашу работу. Чтобы это произошло, я импортировал Pyforest. Обещаю, я не поленился набрать «Numpy», «Pandas», «Seaborn» и «Matplotlib». Pyforest — это просто шкатулка с сокровищами, в которой хранятся почти все отдельные модули обработки данных и машинного обучения.

Следующим шагом будет предоставление мне доказательств того, что pyforest содержит все соответствующие модули обработки данных.

Я должен был показать вам результат здесь. Однако вы можете получить код для этого простого исследовательского анализа из моего репозитория Github ЗДЕСЬ.

2. Следующий шаг связан со чтением данных и загрузкой данных для быстрого просмотра:

Следующим шагом было изучение данных, чтобы увидеть, есть ли нулевые значения в нашем наборе данных. Для этого была вызвана функция data.isna().sum().

Функция duplicated().sum() была вызвана для проверки того, содержит ли набор данных повторяющиеся значения или записи.

Последующие функции, которые были вызваны, были data.shape и data.size, поскольку они давали строки и столбцы, которые поставлялись с данными, а последняя давала нам общее количество записей, внесенных в набор данных.

data.info(), data.set_index(),data.drop(columns=[]) были вызваны для предоставления основной информации о наборе данных, установки индекса набора данных и удаления ненужных столбцов соответственно.

Исследовательский анализ данных

Я был поражен, увидев, что такие запросы, как «Сколько континентов в мире?» сгенерировал около 941 000 000 результатов поиска в Google. Это изумление повлияло на мой первый исследовательский запрос и последующие запросы, представленные ниже:

Полученные результаты:

Следующая серия вопросов была посвящена населению в разные периоды/годы.

Полученные результаты:

Приведенные выше результаты показывают общую популяцию людей по континентам. Можно сделать вывод, что Азия является самым густонаселенным континентом в мире, за ней следуют Африка, затем Европа, Северная Америка, Южная Америка и, наконец, Океания.

Визуализируется как:

Поскольку Азия является самым густонаселенным континентом, я попытался выяснить самые густонаселенные страны на данный момент, то есть 2022 год. Что касается Азии, в моем репозитории Github вы найдете разбивку континентов по соответствующим странам. и как они ранжируются в зависимости от их населения.

Полученные результаты:

Я хотел увидеть рейтинги 5 самых густонаселенных стран по всем атрибутам года, которые поставлялись с этим набором данных, поэтому я использовал эту простую функцию цикла for.

Полученные результаты:

Следующим предварительным анализом было выявление наименее населенных стран мира по годам:

Полученные результаты:

Приведенная выше визуализация описывает население мира по количеству континентов.

И последнее, но не менее важное: мне нужно было найти тенденцию роста населения с 1970 года, и визуализация ниже демонстрирует это. Можно видеть, что население с 1970 года росло и будет продолжать расти при прочих равных условиях, даже несмотря на то, что в некоторых частях мира, вероятно, может быть низкий уровень рождаемости.

И снова из этого анализа стало понятно, что Africa является континентом с самыми высокими темпами роста, за которым следуют Asia и Europe..

На этом мой простой исследовательский анализ набора данных World Population Dataset от Kaggle завершается.

Получите фрагменты кода и код этого анализа в моем репозитории Github и свяжитесь со мной в LinkedIn — я буду рад услышать от вас.

Я ценю, что вы нашли время, чтобы прочитать!

Спасибо!