Экологические, социальные, управленческие и финансовые показатели: введение в построение данных…

В одном из своих последних исследований я сосредоточил внимание на характеристиках, которые могут объяснить статистическую связь между экологическими, социальными и управленческими аспектами (далее — ESG) и финансовыми показателями компании ( КФП). ESG и CFP уже давно описаны в экономической литературе, хотя после пяти десятилетий исследований не было достигнуто единого мнения.

ESG — это рассмотрение экологических, социальных и управленческих факторов наряду с финансовыми факторами в процессе принятия инвестиционных решений. ESG имеет решающее значение для инвесторов, поскольку помогает выявлять риски, не выявленные традиционным финансовым анализом. Инвесторы полагаются на различных поставщиков данных, таких как MSCI, Bloomberg, Thomson-Reuter, для оценки действий компаний в отношении одного из трех столпов ESG, а затем того, как это отражается на итоговых показателях компании (прибыль, прибыль, чистая прибыль или прибыль). за акцию).

Возьмем, к примеру, Starbuck — крупную розничную торговлю кофе во всем мире, и каждый год Starbuck выпускает документ, в котором сообщается о ее глобальном воздействии на окружающую среду и общество. Из самого последнего мы можем прочитать, что Starbucks обещает на 50% сократить количество отходов, отправляемых на свалки из магазинов (включая упаковку, покидающую магазины), и прямые операции, обусловленные более широким переходом к экономике замкнутого цикла. Он также упомянул, что чашки в магазинах теперь являются перерабатываемыми крышками без соломинки.

Крупные поставщики данных, такие как индекс MSCI, превращают эту информацию в оценку ESG (см. изображение ниже).

Инвесторы и исследователи ESG пытаются оценить, приводит ли более высокая оценка к лучшим финансовым показателям.

Существует огромное количество работ, пытающихся ответить на вышеупомянутые вопросы. В одной недавней статье содержится хорошее резюме 54 количественных мета-анализов (все 54 мета-анализа охватывают более четырех тысяч статей). Автор выступает за то, чтобы экологические показатели приводили к улучшению финансовых показателей, но также констатировал наличие положительной связи между социальными показателями и финансовыми показателями.

Наше текущее исследование сосредоточено на другом аспекте ESG-CFP. В то время как расширенная литература пытается найти связь между ESG-CFP с использованием информации фирм, мы смотрим на характеристики авторов и журнала, чтобы увидеть, можем ли мы сделать какие-либо выводы.

Наша исходная гипотеза такова:

опыт автора в области ESG, гендера, а также институт авторов могут привести к разным результатам.
Информация о журнале, такая как престиж, местонахождение (Европа или США) и открытый доступ, может привести к смещению результатов в сторону статистического эффекта между ESG-CFP.
Информация, полученная из аннотации статьи, такая как количество глаголов, существительных, прилагательных или «настроение», может объяснить результаты, полученные в предыдущей литературе.

Для проведения исследования мы вручную собрали информацию о сотне статей, включая заглавия и статистические таблицы. Однако нас сдерживало отсутствие информации об авторах или журнале, поэтому мы разработали стратегию поиска дополнительной информации с помощью Semantic Scholar. Мы не могли использовать Scopus, так как у нас нет лицензии.

В этом посте я представлю методологию построения переменных, которые мы используем в нашем исследовании:

Пол
экспертиза ESG
настроение
Бумажный кластер
Рейтинг публикаций CNRS

Блокнот Jupyter доступен по этому URL-адресу: 00_meta_analysis.html.

Информация об авторах и статьях

Мы собрали 110 статей, опубликованных с 1997 по 2020 год, из следующих баз данных: ABI/ONFORM Global, Business Source Premier, JSTOR, Google Scholar, ECONLIT, SSRN, Cairn.info, Science Direct, EBSCO.

Вся информация о статьях доступна в электронной таблице Google Метаанализ файла CSR Excel — Версия 4–01.02.2021.

Чтобы получить как можно больше информации об авторе/статье, мы полагаемся на базу данных Semantic Scholar и получаем данные через API.

Семантический ученый

Наша основная цель — получить информацию о гендере, оценить опыт автора в области ESG, а также извлечь содержательную информацию из аннотации. Для получения всей этой информации мы используем базу данных Semantic Scholar, которая насчитывает 198 182 311 статей из всех областей науки.

Наша стратегия заключается в использовании API для поиска статьи, чтобы получить соответствующую информацию (DOI, цитирование, производительность) и, что более важно, идентификатор автора (авторов). Действительно, чтобы получить информацию об авторе, нам нужно знать его ID. Как только у нас будет идентификатор, мы сможем собирать и вычислять всю другую информацию (например, пол и опыт).

Рабочий процесс следующий:

Скачать данные и предсказать пол
Пометить документы ESG
Вычислите настроения и кластерные статьи, используя реферат
Вычислить оценку экспертизы ESG
Объединить всю информацию

1. Загрузите данные и предскажите пол

Мы следуем четырем шагам, чтобы получить статью и информацию об авторе.

Берем данные из таблицы Метаанализ файлов CSR Excel — Версия 4–01.02.2021 (обратите внимание, я использую библиотеку GoogleDrive-python для получения данных из таблицы).
Мы передаем название статьи в Semantic Scholar API, чтобы найти идентификатор статьи и использовать идентификатор для загрузки информации о статье (включая идентификатор авторов).
Мы передаем идентификатор автора в Semantic Scholar API для загрузки информации об авторе.
Предсказываем пол по имени автора

Шаг 1. Загрузите данные из электронной таблицы Google.

Исходные данные были собраны в электронной таблице Google (Метаанализ файлов CSR Excel — Версия 4–01.02.2021) с некоторой релевантной информацией, но она также содержит ошибки. Обнаружение ошибок было сделано отдельно с использованием статистических методов и не будет рассматриваться в этом посте. Из этой таблицы мы будем использовать только заголовок и название публикации. Вся остальная информация отбрасывается и будет получена с помощью Semantic Scholar.

Шаги 2–3: информация о бумаге и идентификатор автора

На втором этапе мы хотим использовать уникальное название заголовка из электронной таблицы, чтобы получить необходимую нам информацию (пол, аннотация, год публикации и т. д.).

На предыдущем изображении показана одна статья, написанная С. Уоддоком и С. Грейвсом (мы можем посмотреть статью в Semantic Scholar).

Корпоративная социальная результативность-финансовая результативность

DOI: «10.1002/(SICI)1097–0266(199704)18:4‹03::AID-SMJ869›3.0.CO;2-G».

Чтобы найти информацию с шагов 2 по 3, нам нужно использовать 2 разных API:

Публикация

Чтобы найти идентификатор бумаги, мы используем https://api.semanticscholar.org/graph/v1/paper/search?query=

мы создаем URL-адрес, очищая заголовок, и явно добавляем список возвращаемых полей:

https://api.semanticscholar.org/graph/v1/paper/search?query=the+corporate+social+performancefinancial+performance+link&fields=url, title, abstract, место проведения, год, referenceCount, QuoteCount, influentialCitationCount, isOpenAccess ,области исследования,авторы

Вы можете скопировать/вставить URL-адрес в свой веб-браузер, чтобы увидеть всю информацию.

Ответ дает бумажный идентификатор

{"paperId": "2e899bc9e49e4a55374f26fdfd3f777658d460ab", "url": "https://www.semanticscholar.org/paper/2e899bc9e49e4a55374f26fdfd3f777658d460ab", "title": "The corporate social performance-financial performance link"

но и авторы (и ID)

"authors": [{"authorId": "66042905", "name": "S. Waddock"}, {"authorId": "2367938", "name": "S. Graves"}

Обратите внимание, что нам нужен промежуточный вызов API для получения DOI со следующего URL-адреса https://api.semanticscholar.org/graph/v1/paper/2e899bc9e49e4a55374f26fdfd3f777658d460ab?fields=externalIds,url,title,abstract,venue,year, referenceCount,citationCount,influentialCitationCount,isOpenAccess,fieldsOfStudy,authors

Авторы

Мы используем следующий API для загрузки информации о каждом авторе https://api.semanticscholar.org/graph/v1/author/66042905?fields=externalIds,url,name,aliases,affiliations,homepage,papers

Ответ предоставляет две информации, которые мы будем использовать для вычисления пола и оценки ESG:

псевдонимы: все возможные имена авторов
бумаги: все статьи авторов. На изображении ниже видно, что у автора С. Уоддока 313 публикаций.

в ответе мы сохраняем все 313 публикаций, потому что мы будем использовать эту информацию для расчета оценки экспертности ESG.

[{'authorId': '66042905',
   'externalIds': {},
   'url': 'https://www.semanticscholar.org/author/66042905',
   'name': 'S. Waddock',
   'aliases': ['S Waddock',
    'Sandra Waddock',
    'Sandr A Waddock',
    'Sandra A. Waddock'],
   'affiliations': [],
   'homepage': None,
   'papers': [{'paperId': '39657170f4d0496f79d7c766e1911c48e5b8f25c',
     'title': 'The UN Guiding Principles on Business and Human Rights: Implications for Corporate Social Responsibility Research'}, ....]

Шаг 4. Прогнозирование пола

На следующем шаге мы хотим предсказать пол автора. Первый автор С. Waddock, пол которого невозможно определить, потому что в имени отображается только одна буква. Поэтому мы будем объединять имя со всеми псевдонимами. Добавляем еще одно ограничение, первое имя должно содержать более 2 символов:

‘С. Ваддок: отброшен
«S Waddock»: отброшен
«Сандра Уоддок»,
«Сандр А Ваддок»,
«Сандра А. Уоддок»

Затем мы подталкиваем всех кандидатов к модели и возвращаем среднюю вероятность. В нашем предыдущем примере модель дает среднюю вероятность 43%, что означает, что автор — женщина.

Модель обучается на общедоступном наборе данных USA Names, доступном в Google BigQuery. Мы обучили модель с использованием архитектуры LSTM со слоем внедрения в качестве входных данных и плотным слоем в качестве выходных данных. Слой внедрения имеет 28 функций (27 букв алфавита и 1 пробел) и размер 258.

2. Пометить документ ESG

Список статей, который мы сохранили на предыдущих шагах, содержит 266 авторов с 14 443 уникальными публикациями. Для каждого автора мы хотим оценить, насколько он знаком с темой ESG. Чтобы пометить публикацию ESG (14.443), мы полагаемся на наивный метод.

Техника следующая:

Создайте чистый список слов из заголовка (удалив английские стоп-слова, специальные символы и строчные буквы)
Отметьте, если чистый список содержит «esg», «экологический», «социальный», «управление».

На изображении ниже показано, как мы используем эту технику, чтобы пометить бумагу ESG. Возьмем заголовок «Корпоративная социальная ответственность и ценность компании: преодоление
неопределенности экономической политики», после процесса очистки мы получим следующий список ключевых слов «[корпоративная, социальная, ответственность , фирма, стоимость, направляющая, экономическая, политика, неопределенность]». Поскольку в списке есть слово «социальный», мы помечаем его как тему ESG. По аналогии, заголовок «Действительно ли финансовое развитие стимулирует зарождающееся предпринимательство в Европе? Анализ панельных данных» не содержит ключевых слов ESG.

Всего 2094 статьи посвящены ESG из 14 443 статей (14%). Позже мы воспользуемся этой информацией для построения оценки компетентности ESG.

3. Сентиментальные и кластерные статьи

Последняя порция информации относится к актуальности и деталям реферата. Мы можем подумать, что реферат содержит информацию о «качестве» или «эмоциях» статьи. Поэтому мы предлагаем вычислить следующие переменные:

настроение: положительное или отрицательное. Общее ощущение абстрактно. Положительный означает, что аннотация, как правило, содержит больше слов, связанных с положительной коннотацией.
кластер: 3 кластера, рассчитанные с использованием слов в аннотации (встраивания), количества глаголов, существительных и прилагательных, а также размера аннотации.

Создание настроений

Мы используем великолепную библиотеку Flair для вычисления тональности по разным причинам. Во-первых, у нас нет абстрактных меток, поэтому мы не можем обучать собственную модель. Во-вторых, Flair использует современную архитектуру NLP для обучения своей модели, а это означает, что она дает гораздо лучшие результаты, чем если бы нам пришлось строить нашу модель.

Рабочий процесс для получения настроения следующий

Шаг 1. Очистите аннотацию:
— Слова в нижнем регистре
— Удалить [+XYZ символов] в содержании
— Удалить несколько пробелов в содержании
— Удалить многоточие (и последнее слово)< br /> — заменить тире между словами
— удалить знаки препинания
— удалить стоп-слова
— удалить цифры
— удалить короткие токены
Шаг 2: Вычислите настроения с помощью библиотеки Flair.

Среди 106 статей, которые у нас есть, 71 имеет положительное отношение к реферату и 35 — отрицательное.

Кластеризация

Аннотация содержит соответствующую информацию о качестве статей, и мы хотим извлечь их, чтобы сгруппировать статьи в 3 кластера. Для построения кластера мы используем векторное встраивание слов из «word2vec-google-news-300». У нас недостаточно данных для обучения нашей модели, а Google уже проделал тяжелую работу, поэтому кажется более разумным использовать предварительно вычисленные векторы. Мы также включаем количество вхождений ESG в аннотацию, количество прилагательных, существительных и глаголов. Кажется правдоподобным, что «качество» аннотации коррелирует с количеством глаголов или прилагательных, поскольку они вызывают у читателя больше эмоций.

Шаг 1: Подсчитайте количество прилагательных, существительных и глаголов
Шаг 2: Получите вложение вектора из предварительно обученной модели word2vec-google-news-300 и найдите каждое слово в списке. Вычислите среднее значение, чтобы получить вектор из 100 весов для данного документа.
Шаг 3: Стандартизируйте количество вхождений, глаголов, существительных и прилагательных. Предварительно мы нормализуем количество каждого вхождения по длине реферата.
Шаг 4: Вычислите кластер, используя K-mean

Входные данные, подаваемые в k-mean, выглядят так, как показано на рисунке ниже. Существует вектор из 300 значений, соответствующих встраиванию слова, и четыре других функции, фиксирующие вхождения.

В итоге у нас есть три кластера: 32 наблюдения в кластере 0, 29 в кластере 1 и 38 в кластере 2.

Кластеры 0 и 2 имеют более или менее одинаковый процент положительных настроений, но кластер 1 склоняется к положительным настроениям.

Кластер 1 имеет в среднем более длинные аннотации, чем два других кластера (165 слов против 135/147), но содержит гораздо меньше вхождений ESG. Кластер 2 является наиболее описательным и содержит в среднем 18 глаголов.

Если мы сравним два абстракта, взятые из кластеров 0 и 2, мы сможем уловить различия. Во-первых, в первом листе (кластер 2) гораздо больше слов (193 против 128) и в два раза больше глаголов, чем во втором листе. Если мы подробно прочитаем аннотацию, мы сможем измерить смысл первой статьи. Он предоставляет больше деталей и более убедителен, чем второй, что потенциально указывает на лучшее «качество».

4. Рейтинг журналов CNRS

Наша интуиция подсказывает, что рейтинг журнала имеет значение для выявления статистической связи (или нет) между ESG и CFP. Если это так, то в данных присутствует предвзятость публикации. Чтобы подтвердить наше предположение, мы полагаемся на две разные метрики:

SJR: показатель SCImago Journal Rank — это мера научного влияния научных журналов, учитывающая как количество цитирований, полученных журналом, так и важность или престиж журналов, из которых цитируются
Рейтинг журналов CNRS: Французский национальный центр научных исследований (французский: Centre national de la recherche scientifique, CNRS). ) — французская государственная исследовательская организация и крупнейшее агентство фундаментальной науки в Европе. Каждый год CNRS публикует рейтинг более 1256 журналов. CNRS оценивает журнал по 4 категориям, начиная с 1 как лучшие журналы и 4 как самые низкие.

Мы уже скачали данные из базы данных Scimago и сохранили их в AWS S3. Однако у CNRS нет доступного набора данных (по крайней мере, в формате CSV или электронной таблицы), поэтому для получения рейтинга нам необходимо использовать релизную публикацию с официального сайта.

Официальные релизы доступны по этому URL. Для нашего исследования мы будем использовать самый последний выпуск, датированный 2020 годом:Рейтинг журнала CNRS в области экономики и управления, июнь 2020 года. PDF-файл содержит более 80 таблиц с названием издания, ISSN, доменом и рейтингом.

Для извлечения информации мы полагаемся на библиотеку таблиц, которая представляет собой простую Python-оболочку tabula-java и может читать таблицы в формате PDF.

После преобразования PDF в кадр данных Pandas мы получаем обширный список рейтингов журналов (см. изображение ниже).

Список журналов, которые мы собрали, доступен на шагах 2–3: информация о газете и идентификатор автора. Сравнение между двумя файлами тривиально, и мы получаем следующее распределение рейтинга CNRS:

37 журналов отсутствуют в рейтинге CNRS
10 относится ко второму ярусу
9 на верхние уровни
3 в четвертом ярусе
2 в третьем ярусе

Я признаю, что процесс сбора бумаги был не таким научным, как можно было бы ожидать. Я также не могу отрицать, что данные могут быть предвзятыми, но это было за пределами моей досягаемости, когда я присоединился к проекту.

5. Подведение итогов

Из списка статей, доступных в Google Spreadsheet (Мета-анализ файлов CSR Excel — Версия 4–01.02.2021), удалось сконструировать следующую информацию:

Информация о документах
Информация об авторах
Настроение, полученное из абстрактного
Кластеризация, полученная из абстрактного
Рейтинг журналов от CNRS

Последний шаг стратегии состоит в объединении всех фрагментов информации в единый фрейм данных. Задача проста, поскольку у нас уже есть все авторы данной статьи. Функция explode из Pandas берет каждого автора из словаря и создает строку для каждого автора (если в статье два автора, то функция создает две строки, одну для первого автора, и еще один для второго). Другая информация может быть объединена с использованием идентификатора бумаги или названия публикации.

Наконец, мы можем рассчитать оценку экспертности ESG для каждого автора, разделив количество статей, посвященных ESG, на общее количество опубликованных статей.

Наш набор данных состоит из 182 мужчин и 83 женщин. Средний балл ESG-экспертизы автора составляет 0,22, при этом 75% данных не превышают 30%.

В итоге у нас есть фрейм данных из 253 наблюдений и 43 столбцов.

Данные доступны в следующей электронной таблице Google: AUTHOR_SEMANTIC_GOOGLE.

Последующий пост будет опубликован с результатами анализа.

Источники

Чтобы увидеть мое портфолио проектов по науке о данных, перейдите по этой ссылке: https://coda.io/@thomas-pernet/thomas-portfolio