Исследовательский проект визуального исследования данных для лучшего понимания нюансов нашего глобального питания

СОДЕРЖАНИЕ

Это часть 3 исследовательского проекта из 8 частей, цель которого - лучше понять нюансы нашего глобального питания. Он исследует эту тему с помощью методов визуализации данных и науки о данных. Он дополняется веб-приложением ExploringUndernourishment, которое свободно доступно для всех.

Часть 1 - Введение и обзор
Часть 2 - Обзор литературы
Часть 3 - Исследование данных ← Выбранная страница
Часть 4 - Область исследований 1: Общая тенденция
Часть 5 - Область исследований 2: Наиболее успешные страны
Часть 6 - Область исследований 3: удивительные тенденции
Часть 7 - Область исследования 4: Самый влиятельный индикатор
Часть 8 - Рекомендации и выводы

Исследование данных

Чтобы помочь регистрировать и отслеживать прогресс в достижении этой цели, ФАО создала средства регистрации и мониторинга этих данных на ежегодной основе и сделала эти данные общедоступными. Их платформа открытых данных FAOStat (FAO 2020c) предоставляет эти данные бесплатно для общественности в течение первых двух месяцев каждого года.

Был создан ряд визуализаций, связанных с этапом исследовательского анализа данных (EDA).

Данные о распространенности недоедания

Рисунок 1 показывает, как общее распределение распространенности недоедания сосредоточено вокруг 0.05% с длинным правым хвостом, уходящим в 0.7%.

Рисунок 2 показывает, как показатель распространенности недоедания постепенно меняется в положительную сторону каждый год, приближаясь к нулю. У такого графика распределенного распределения есть некоторые недостатки, а именно, невозможно иметь значение ниже нуля; однако этот сюжет указывает на то, что это возможно. Поэтому к анализу этих сюжетов нужно относиться осторожно, а аудитории - к их интерпретации.

Рисунок 3 показывает корреляцию каждой конкретной функции с Prevalence of Undernourishment функцией. В то время как некоторые показывают сильную корреляцию (например, Avg Dietary Adequacy), другие почти не показывают корреляции (например, Prevalence of Breastfeeding Women). Более того, некоторые из них демонстрируют очень сильную корреляцию для конкретных стран, но не имеют корреляции общей тенденции (например, Prevalence of Low Birthrate).

Количество недостающих данных

Рисунок 4 показывает, сколько NA значений каждой переменной в анализе. Причины этих NA могут быть связаны с недостаточными стандартами измерения в перечисленных странах, или это может быть преднамеренное упущение этих данных, или они могли быть только начали регистрироваться в последние недели. В любом случае, эти недостающие значения данных необходимо обрабатывать соответствующим образом. Однако некоторые из этих показателей являются апостериорными, что означает, что они находятся под влиянием распространенности недоедания и являются ее результатом. Следовательно, они не являются хорошими предсказателями; но они могут быть хорошими мерами постфактум.

Особенности корреляции

На рисунке 5 каждая характеристика измеряется с учетом ее корреляции с каждой из других переменных. Признак prevalence_of_undernourishment находится в нижней части графика, что упрощает определение того, с какими функциями он сильно коррелирован (положительно и отрицательно), а с какими из них корреляция низкая. Знаки вопроса на этом графике указывают на то, что в столбцах слишком много NA, и точное попарное вычисление корреляции невозможно.

Данные по стране

Рисунок 6 показывает каждую страну, указанную на оси Y, с процентным соотношением количества NA значений в поле Prevalence of Undernourishment на оси X. Это означает, что страны, набравшие баллы за каждый год отчетности, указаны зеленым цветом; но страны, у которых никогда не регистрировалась оценка распространенности недоедания за 18 лет регистрации, указаны красным. Те, у которых есть ноль, бесполезны для анализа и должны быть исключены.

Для тех стран, которые имеют по крайней мере 20% лет с измерениями PoU (т. Е. Более 4 лет регистрации), перечислены на Рисунке 7. Этот график показывает распределение PoU для каждой страны. Точно так же, как рисунок 2, но вместо этого по странам. Этот график показывает, что у многих стран очень точный, очень точный счет близок к нулю; а некоторые другие страны имеют гораздо более широкое распространение, более далекое от нуля. Поэтому внимание следует направлять на более широкие и отдаленные, так как они будут более полезны для анализа.

Рисунок 8 неаккуратен. Он показывает разные линии для каждой страны: PoU по оси Y и год по оси X. Это указывает на то, что некоторые страны значительно улучшили свои PoU за эти годы, а некоторые страны значительно увеличили PoU. Однако значительная часть стран плотно упакована вокруг отметки 0, что соответствует рис. 6.

использованная литература

FAO 2020c, FAOStat, просмотрено 7 мая 2020 г., ‹ http://www.fao.org/faostat/en/#data/FS ›.

Читать дальше:

Предыдущий раздел: Обзор литературы
Следующий раздел: Область исследований 1: Общая тенденция