Ну, по правде говоря, это был не тот анализ, который я хотел продемонстрировать. Я действительно хотел поразить вас, реконструировав все показатели, связанные с этим набором данных, чтобы тенденции предыдущих лет можно было использовать для прогнозирования населения отдельных стран или континентов на следующие десять лет; поскольку предыдущая заданная популяция увеличивается с шагом в 10 лет. 😐 Подождите! Вы хоть поняли, что я только что сказал?????
Если приведенная выше преамбула верна или возможна, «машина» узнала бы, как растет население, а затем сделала бы прогнозы заранее о том, каким, вероятно, будет наше население.
Не было бы это крутой идеей.
Ну, я не мог довести эту идею Эйнштейна до термоядерного синтеза.
Здесь я отдыхаю от погони за самой смелой мечтой.
Было ли это вообще возможно?
Почему никто не реализует эту идею? Ну кто знает? Мой следующий пост, вероятно, будет о том, как я реализовал свою самую смелую мечту.
Теперь приступим к анализу:
Фон
В статье CNN, которую я недавно прочитал, миллиардер Илон Маск подвергся критике за то, что написал в Твиттере, что «коллапс населения из-за уровня рождаемости представляет собой гораздо большую угрозу для цивилизации, чем глобальное потепление». По словам демографов, в этих новостях очевидно то, что, несмотря на потери в некоторых регионах мира, население мира растет и не должно сокращаться в ближайшее время — даже при более низких уровнях рождаемости, чем в прошлом. Этот простой исследовательский анализ погружается в набор данных о населении, предоставленный нам через Kaggle, чтобы лучше понять природу населения мира с 1970 по 2022 год.
Задача
Этот проект направлен на изучение набора данных о населении, чтобы лучше понять население с даты его начала до сегодняшнего дня. У меня также была сумасшедшая идея перепроектировать весь процесс, чтобы тенденции населения в предыдущие годы можно было использовать для прогнозирования населения в будущем. Однако для того, чтобы совершить этот подвиг, должно быть больше, чем просто статистика населения.
Запросы
- Какой континент в настоящее время является самым населенным в мире?
- Какая самая населенная страна в мире на данный момент?
- Какой континент в настоящее время является наименее населенным в мире?
- Какая самая малонаселенная страна в мире на данный момент?
- Есть ли связь между числовыми характеристиками численности населения по годам?
Понимание данных
Набор данных из Kaggle просто показывает население стран в 10-летнем периоде, за исключением 2015 и 2022 годов. Помимо указанного населения, он также демонстрирует темпы роста населения, площадь, плотность, процент населения, а также различные континенты и их код.
Обработка данных:
- Каждый анализ начинается с импорта соответствующих библиотек, которые могут облегчить работу «кодера». Вот почему существуют физические библиотеки — они облегчают нашу работу. Чтобы это произошло, я импортировал Pyforest. Обещаю, я не поленился набрать «Numpy», «Pandas», «Seaborn» и «Matplotlib». Pyforest — это просто шкатулка с сокровищами, в которой хранятся почти все отдельные модули обработки данных и машинного обучения.
Следующим шагом будет предоставление мне доказательств того, что pyforest
содержит все соответствующие модули обработки данных.
Я должен был показать вам результат здесь. Однако вы можете получить код для этого простого исследовательского анализа из моего репозитория Github ЗДЕСЬ.
2. Следующий шаг связан со чтением данных и загрузкой данных для быстрого просмотра:
Следующим шагом было изучение данных, чтобы увидеть, есть ли нулевые значения в нашем наборе данных. Для этого была вызвана функция data.isna().sum()
.
Функция duplicated().sum()
была вызвана для проверки того, содержит ли набор данных повторяющиеся значения или записи.
Последующие функции, которые были вызваны, были data.shape
и data.size
, поскольку они давали строки и столбцы, которые поставлялись с данными, а последняя давала нам общее количество записей, внесенных в набор данных.
data.info(), data.set_index(),data.drop(columns=[])
были вызваны для предоставления основной информации о наборе данных, установки индекса набора данных и удаления ненужных столбцов соответственно.
Исследовательский анализ данных
Я был поражен, увидев, что такие запросы, как «Сколько континентов в мире?» сгенерировал около 941 000 000 результатов поиска в Google. Это изумление повлияло на мой первый исследовательский запрос и последующие запросы, представленные ниже:
Полученные результаты:
Следующая серия вопросов была посвящена населению в разные периоды/годы.
Полученные результаты:
Приведенные выше результаты показывают общую популяцию людей по континентам. Можно сделать вывод, что Азия является самым густонаселенным континентом в мире, за ней следуют Африка, затем Европа, Северная Америка, Южная Америка и, наконец, Океания.
Визуализируется как:
Поскольку Азия является самым густонаселенным континентом, я попытался выяснить самые густонаселенные страны на данный момент, то есть 2022 год. Что касается Азии, в моем репозитории Github вы найдете разбивку континентов по соответствующим странам. и как они ранжируются в зависимости от их населения.
Полученные результаты:
Я хотел увидеть рейтинги 5 самых густонаселенных стран по всем атрибутам года, которые поставлялись с этим набором данных, поэтому я использовал эту простую функцию цикла for.
Полученные результаты:
Следующим предварительным анализом было выявление наименее населенных стран мира по годам:
Полученные результаты:
Приведенная выше визуализация описывает население мира по количеству континентов.
И последнее, но не менее важное: мне нужно было найти тенденцию роста населения с 1970 года, и визуализация ниже демонстрирует это. Можно видеть, что население с 1970 года росло и будет продолжать расти при прочих равных условиях, даже несмотря на то, что в некоторых частях мира, вероятно, может быть низкий уровень рождаемости.
И снова из этого анализа стало понятно, что Africa
является континентом с самыми высокими темпами роста, за которым следуют Asia
и Europe.
.
На этом мой простой исследовательский анализ набора данных World Population Dataset от Kaggle завершается.
Получите фрагменты кода и код этого анализа в моем репозитории Github и свяжитесь со мной в LinkedIn — я буду рад услышать от вас.
Я ценю, что вы нашли время, чтобы прочитать!
Спасибо!