Модель машинного обучения для прогнозирования и сокращения выбросов углекислого газа

ВСТУПЛЕНИЕ

Рост идет вместе с индустриализацией, которая предполагает использование энергии, что ведет к увеличению выбросов углерода и ухудшению состояния окружающей среды. Следовательно, по мере индустриализации страны уровень загрязнения значительно возрастет.

Это естественная связь между экономической деятельностью и окружающей средой. Менее развитые страны загрязняют меньше, потому что у них, как правило, низкие доходы, поэтому люди не могут позволить себе продукты, которые способствуют увеличению загрязнения, такие как автомобили, самолеты, телевизоры и т. Д. Однако, когда люди улучшают качество своей жизни, они могут покупать больше предметов роскоши и услуг, что ведет к увеличению загрязнения.

Гипотеза экологической кривой Кузнеца объединяет эту тенденцию и идею о том, что постиндустриальные страны инвестируют и используют альтернативные источники энергии. Гипотеза кривой Кузнеца утверждает, что по мере того, как страны развиваются, они выбрасывают большее количество углекислого газа. Но как только страны становятся более развитыми в промышленном отношении, они обращаются к более чистым источникам энергии, уменьшающим загрязнение. Кроме того, непромышленные страны не так сильно загрязняют окружающую среду, поскольку они не потребляют много энергии.

В предыдущем исследовании я проанализировал взаимосвязь ВВП с выбросами углерода (экологическая кривая Кузнеца) за 1994, 2004 и 2014 годы. Я увидел отрицательно-квадратичную взаимосвязь между ВВП и выбросами углерода, соответствующую тенденции, установленной в Экологическом исследовании. Гипотеза кривой Кузнеца.

В этой статье я использую машинное обучение для прогнозирования выбросов CO2 в стране на основе данных за 9 лет. Модель использует несколько переменных для прогнозирования выбросов CO2 в стране. Цель этой модели - сделать точные прогнозы выбросов CO2 с учетом нескольких переменных, используя кривую Кузнеца в качестве основы.

ДАННЫЕ

Данные, используемые в модели, взяты из группы Всемирного банка. Он содержит данные по всем странам мира и разбивает их на регионы, такие как Латинская Америка, Арабский мир и т. Д. Данные доступны здесь: https://data.worldbank.org/indicator.

Важной частью выбора данных для включения была согласованность набора данных. Перечисленные ниже переменные представлены в основном полными наборами данных. Другие важные переменные, такие как годовое количество осадков и уровень грамотности, могли быть важными факторами, однако набор данных был неполным, и данные собирались только за пять лет. Таким образом, окончательный набор данных не включал переменные с неполными данными, которые потенциально могли улучшить точность модели.

Таблица 1: таблица с образцами данных

Переменные, годовые данные с 2005 по 2014 год, которые используются в модели: доступность электроэнергии в стране (в процентах от населения), площадь лесов (в процентах от земли), рост ВВП (в процентах), городское население (в процентах от общей численности населения). ), Рост населения (в процентах), население, потребление энергии, возобновляемые источники энергии (в процентах от общего потребления энергии), животноводство, чистая официальная помощь развитию (ОПР) (на душу населения) и рост городского населения (в процентах). Доступность электроэнергии используется потому, что электричество часто производится за счет сжигания ископаемого топлива, в результате чего выделяется CO2. Площадь лесов важна, потому что деревья превращают углекислый газ в кислород, помогая удалить часть углекислого газа из атмосферы. Рост ВВП влияет на выбросы CO2, потому что рост ВВП является важной переменной, определяющей, идет ли индустриализация страны. Городское население включено, потому что городское население обычно использует больше CO2, чем сельское население, поэтому страна с большим городским населением будет производить больше CO2, чем страна с большим сельским населением. Рост населения - еще одна важная переменная, определяющая, является ли страна индустриализирующейся, поскольку большой рост населения обычно объясняется тем, что семьи страны имеют больше денег и, следовательно, выживает больше детей, а родители могут финансово поддерживать большее количество детей, что является прямым результатом индустриализации. Население влияет на производство углекислого газа, поскольку более крупные группы населения будут производить больше углекислого газа, потому что больше людей использует ресурсы. Энергопотребление включено, поскольку большая часть энергии, используемой во всем мире, производится за счет выделения диоксида углерода. Возобновляемые источники энергии включены, потому что возобновляемые источники энергии не производят выбросов углерода, поэтому их необходимо исключить из общего объема потребления энергии. Животноводство выделяет углекислый газ, поэтому он включен в модель. Чистая ОПР была добавлена, чтобы увидеть влияние иностранной помощи на выбросы CO2. Рост городского населения важен для определения выбросов углерода, так как во время индустриализации наблюдается значительный переезд в города, где появляются рабочие места, однако до и после индустриализации рост городского населения снижается из-за субурбанизации.

Ниже приведены диаграммы доступности электроэнергии, городского населения, роста населения, потребления возобновляемых источников энергии и процента прироста городского населения. Как видно на Рисунке 2, процентная доля городского населения увеличилась примерно на 3% с 2005 по 2014 год. Это означает, что городское население увеличилось примерно на 450 миллионов за эти десять лет. На Рисунке 3 показано, что потребление возобновляемой энергии колебалось с 2005 по 2014 год с общим падением. Это можно отнести к большему количеству индустриализирующихся стран, но не ко многим странам, находящимся на стадии постиндустриализации.

Рисунок 1. Диаграмма доступности электроэнергии в странах (% людей, имеющих доступ)

Рисунок 2: Диаграмма городского населения страны (% населения)

Рисунок 3. Потребление возобновляемой энергии в странах (% от общего объема потребления энергии)

МОДЕЛИ

Модель была построена с использованием данных за 9 лет, с 2005 по 2013 год, с сохранением данных за 2014 год для оценки модели. 9-летние данные были случайным образом разделены в соотношении 70–30; 70% на обучение модели и 30% на тестирование модели.

Во-первых, была построена обобщенная линейная модель (GLM) для определения важности различных переменных. Наиболее значимыми переменными согласно анализу GLM были ВВП на душу населения, процент роста населения, потребление возобновляемых источников энергии (в процентах), иностранная помощь и потребление энергии (килограммы нефти) на душу населения. Эти четыре переменные имели значение p, равное 0, что означало, что они были очень значимым дополнением к модели.

Рисунок 6. Диаграмма величины коэффициентов обобщенной линейной модели

Было построено несколько моделей с использованием разных алгоритмов и наборов данных. Лучшей моделью прогнозирования была модель распределенных случайных лесов, которая имела r-квадрат 0,964 и точность 90,8% при прогнозировании выбросов CO2 в 2014 году. Следующей лучшей моделью прогнозирования была модель машины с градиентным ускорением с r-квадратом 0,967 и точностью 86,2% при прогнозировании выбросов CO2 в 2014 году. В этой модели не использовалась чистая ОПР.

Рисунок 7. Диаграмма важности переменной из распределенной модели случайного леса

Ниже приведен код Python, использованный для построения модели.

Рисунок 8: Отрывок из кода Python для построения модели распределенного случайного леса

ВЫВОДЫ

Модель машинного обучения построена на результатах оригинального статистического анализа. Статистический анализ показал корреляцию между выбросами CO2 и ВВП стран, показав, что гипотеза кривой Кузнеца является разумной. Увидев перспективность использования гипотезы кривой Кузнеца, я построил модель машинного обучения, используя гипотезу кривой Кузнеца вместе с несколькими дополнительными переменными для прогнозирования будущих выбросов CO2.

Модель 5-го отчета МГЭИК для прогнозирования CO2 предсказывает, что на 16% выше фактического значения и на 9% при смешении с полями суши и океана. Моя модель распределенного случайного леса предсказывала, что на 9,2% выше фактических значений CO2 в 2014 году.

Точность моделей можно повысить, включив данные за несколько лет или другие наборы данных, которые относятся к выбросам CO2. Добавление данных за большее количество лет дает модели больше обучающих данных, что повышает точность. Поиск дополнительных наборов данных, таких как уровни грамотности, среднее количество осадков, процент владения автомобилями, нефтедобывающая и угледобывающая промышленность и производство, также может повысить точность модели, поскольку эти переменные, вероятно, коррелируют с выбросами CO2 в стране и, следовательно, могут повысить точность расчета прогнозы модели.

Одним из применений этих результатов является более глубокое понимание характера загрязнения в мире: у стран с низким уровнем дохода нет достаточно денег, чтобы позволить себе такой образ жизни, который создает загрязнение. Страны со средним уровнем дохода быстро индустриализируются, поэтому они производят наибольшее количество загрязнителей. Страны с высоким уровнем дохода загрязняют меньше, потому что они могут позволить себе более чистые энергетические технологии, такие как прокат общественных велосипедов и электромобилей (которые были внедрены в Париже), и внедряют более строгие законы о контроле за загрязнением, такие как Закон о чистом воздухе Калифорнии.

Еще одно применение этих результатов - новые подходы и политика для устойчивого развития. Из переменной важности модели распределенного случайного леса мы можем увидеть наиболее важные переменные при определении выбросов углекислого газа - это потребление энергии (в нефти), использование возобновляемых источников энергии, городское население и потребление электроэнергии. Это означает, что для сокращения выбросов углерода людям необходимо сосредоточить внимание на сокращении использования энергии ископаемого топлива, увеличении использования возобновляемых источников энергии, сосредоточиться на развитии городов и сокращении потребления электроэнергии. Поскольку страны могут прогнозировать количество загрязняющих веществ, попадающих в атмосферу на основе своих прогнозов экономического роста, они смогут разработать необходимую политику для удержания загрязняющих веществ под контролем в будущем. Страны могут финансировать исследования, разработки и внедрение ограниченного использования нефти, более широкого использования возобновляемых источников энергии, экологически чистой энергии в городских районах и сокращения потребления электроэнергии.

Одним из недавних и ярких примеров политики, ограничивающей уровни загрязнения в странах, является Парижское климатическое соглашение, в котором многие страны обязались сократить выбросы углерода, чтобы облегчить последствия изменения климата. Эти усилия могут также помочь странам защитить свои естественные леса, что, в свою очередь, поможет сократить выбросы углерода. Страны могут иметь разные ограничения на загрязнение в зависимости от того, где они попадают на кривую Кузнеца, которые применяются через Организацию Объединенных Наций и / или Всемирную торговую организацию. Примером такого соглашения может быть то, что развивающиеся страны получают чистые технологии (такие как солнечные панели или оборудование ветряных электростанций) от промышленно развитых стран, а развивающиеся страны со временем возвращают этим странам природные ресурсы, продукты или деньги, чтобы развивающиеся страны могут избежать кривой Кузнеца, а развитые страны получат компенсацию за свои технологии - беспроигрышная ситуация для всех, оставив здоровую и устойчивую планету для процветания будущих поколений.

Благодарности

Я хотел бы поблагодарить г-на Прасанту Бехеру, старшего вице-президента по разработке и продукту в ScoreData, и доктора Симу Сангиту, профессора Школы перспективных исследований Тери, Индия, за их наставничество и поддержку на протяжении всего проекта.