Введение

С развитием разведки нетрадиционных месторождений нефти и газа новая технология, названная гидроразрывом пласта (также известная как гидроразрыв), стала интенсивно использоваться для содействия добыче нефти и газа. Использование гидроразрыва привело к образованию больших объемов сточных вод, содержащих высокие концентрации потенциальных загрязнителей.

Сточные воды называются по-разному в зависимости от их различного использования и могут быть разделены на следующие категории: буровой раствор (используемый для бурения бурового раствора и горных пород), жидкость для закачки (закачиваемая, чтобы вызвать трещину в материнской породе), исходный рассол (соленая вода, существовавшая ранее в материнская порода) и возвращаемый флюид (включая флюид позднего гидроразрыва, обратную воду и пластовую воду - последние названия обычно относятся к более поздним стадиям возврата флюида на поверхность).

Эти сточные воды обычно гиперсоленые с высоким содержанием естественных радиоактивных материалов и тяжелых металлов (см. Рис. 1). Примеры включают натрий (Na), магний (Mg), хлорид (Cl), бромид (Br), радий (Ra) и барий (Ba). Эти химические вещества могут вызывать проблемы по-разному. Например, при смешивании с поверхностной водой, богатой сульфатами, высокие концентрации Ba будут выпадать в осадок и образовывать накипь внутри трубопроводов, что снижает эффективность производства.

Стоит обратить внимание на то, что: хотя, глядя на абсолютные значения, концентрация Ra совсем не высока и, следовательно, считается следовым химическим веществом в сточных водах, количество Ra в сточных водах уже в 10 000 раз выше, чем разрешено в безопасных условиях. природная вода предложена Агентством по охране окружающей среды США. Таким образом, относительно высокие уровни Ra становятся серьезной угрозой для окружающей среды, и эта работа направлена ​​на изучение потенциальных источников Ra226 и Ra228 (наиболее распространенная форма Ra, обнаруженная в сточных водах).

Здесь я изучил данные химического отчета, собранные из нескольких источников (Департамент охраны окружающей среды, Геологическая служба США, CUAHSI и т. Д.), И представил краткое исследование источников и процессов, которые приводят к загрязнению Ra во время гидроразрыва пласта. В этом химическом отчете содержится более 100 000 записей об особенностях. В этот опрос было включено более 100 категорий записей, например:

  • Местоположение: округ, широта, долгота
  • Время: месяц / число / год сбора и окучивания
  • Химические вещества: концентрация сульфата (мг / л), концентрация Ra226 (пКи / л)

Загрязнение радием определяется по четырем источникам: буровой раствор, закачиваемая жидкость, исходный рассол и порода. Ниже я демонстрирую свое понимание того, как разделяются источники загрязнения Ra, а затем сравниваю два метода машинного обучения, используемых для связи источников загрязнения Ra с другими функциями.

Часть I: Раздел по источникам радиоактивного загрязнения

Для одной сточной воды, чтобы разделить на четыре источника (три жидкости и одна порода) химических веществ, нам нужно решить четыре уравнения. Но поскольку мы уже знаем, что горные породы поставляют только ограниченное количество химикатов, а многие основные химические вещества поступают только из трех флюидов, поэтому мы можем решить три уравнения сначала с тремя флюидами:

  • A1 * жидкость1 + A2 * жидкость2 + A3 * жидкость3 = A_target
  • B1 * жидкость1 + B2 * жидкость2 + B3 * жидкость3 = B_target
  • жидкость1 + жидкость2 + жидкость3 = 1

Где жидкость1, жидкость2 и жидкость3 являются пропорциями трех источников жидкости, которые необходимо решить; A и B - измеренные концентрации двух химических веществ, обычно встречающихся в жидкостях, но не в горных породах. Исследования показали, что Br и Cl могут служить двумя общими химическими веществами. Для других химикатов в целевых сточных водах оставшаяся необъяснимая часть будет поступать из горных пород. Возьмем, к примеру, Ра:% Ra_from_rock = 1 -% Ra_from_all_fluids.

На приведенном выше рисунке показано количество проб сточных вод с Ra226 (один из самых распространенных радий, обнаруженных в сточных водах гидроразрыва), поступивших из разных источников (рис. 2). Более чем 250 проб сточных вод содержат Ra226 полностью из горных пород. За исключением этих образцов, другие образцы образуют асимметричное распределение: в среднем ›50% Ra226 поступает из исходного рассола и

Теперь, когда мы знаем, что Ra считается следовым химическим веществом в сточных водах, насколько отличается распределение его источника от основного химического вещества (например, Mg) в сточных водах? Как показано на рис. 4, за исключением образцов, в которых растворение породы способствовало увеличению концентрации Mg в сточных водах, в большинстве других образцов фактически наблюдается осаждение Mg, что демонстрируется отрицательным процентным содержанием Mg, полученным из породы (например, -50%).

Очевидно, что загрязнение Ra ведет себя иначе, чем другие основные химические вещества, обнаруженные в сточных водах после гидроразрыва. По сравнению с другими химическими веществами (например, Mg), источники Ra более вероятны при взаимодействии с горными породами.

Следующий вопрос: какие факторы приводят к появлению таких источников Ra? В частности, можем ли мы выбрать важные характеристики измеряемых сточных вод и использовать их для прогнозирования процентного содержания Ra, полученного из рассола? Какие черты важны для определения происхождения Ра из камня? Мы пытаемся предсказать фактические значения с помощью регрессионных моделей, а также пытаемся предсказать, добавляет ли источник к концентрации Ra с помощью классификационных моделей.

Часть II: Использование моделей линейной регрессии для прогнозирования пропорций источника

Модели линейной регрессии для прогнозирования пропорций разрабатываются в четыре этапа:

  1. Сгенерировать набор данных начальных характеристик и результатов (X и y в моделях ML) на основе целевых значений (например,% Ra226, полученного из рассола), которые мы хотим спрогнозировать;
  2. Очистите данные, удалив выбросы в грубой модели линейной регрессии;
  3. Используйте метод лассо, чтобы выбрать наиболее важные функции и лучшие параметры для использования в модели прогнозирования;
  4. Выполните прогноз с помощью окончательной модели и сравните прогнозируемые и измеренные результаты.

В результате указанные выше четыре шага помогли выбрать 18 функций, которые играют важную роль в линейной регрессии для% Ra226, полученного из рассола, и сгенерировали оценки 0,775 и 0,686 для обучающей выборки и тестовой выборки соответственно. Значение R-квадрата для предсказанных и измеренных результатов составляет 0,68 (рис. 5, левое изображение). Для% Ra228, полученного из рассола, на этапах построения модели было выбрано 22 важные характеристики в модели линейной регрессии с 0,671 и 0,576 в качестве оценок за обучение и тестирование. Значение R-квадрата составляет 0,475 (рис. 5 справа).

Очевидно, что модели линейной регрессии не очень хорошо подходят для прогнозирования результатов разбиения источника. Плохая работа тщательно отобранных моделей предполагает, что процентное содержание источников загрязнителей Ra226 и Ra228 не обязательно коррелирует с концентрациями других химических веществ. Также могут быть различные причины плохого прогноза, в том числе: размер выборки все еще слишком мал, слишком много выбросов из-за изменчивости условий выборки, несовместимые методы измерения и т. Д.

Теперь, когда прогнозирование процентных соотношений не кажется достаточно надежным, давайте попробуем удачи и посмотрим, можно ли предсказать с помощью методов классификации вопрос «получен ли Ra из рассола или породы».

Часть III: Используйте классификационные модели, чтобы предсказать, способствует ли источник заражению.

Подобно тому, что мы сделали при построении моделей линейной регрессии, мы снова выполняем четыре шага для прогнозирования нашего вопроса «стоит ли»:

  1. Сгенерировать набор данных исходных функций и результатов (X и y в моделях ML) на основе целевых значений (например,% Ra226, полученного из горной породы), которые мы хотим спрогнозировать;
  2. Используйте feature_importances_, чтобы выбрать важные функции для модели прогнозирования;
  3. Настройте и выберите лучшие параметры для использования в DecisionTreeClassifier;
  4. Выполните прогноз с настроенной моделью и проверьте результаты.

Выбранные характеристики и соответствующие значения для определения того, получены ли Ra226 и Ra228 частично из горных пород или нет, показаны на рис. 6. Их собственные концентрации, концентрация Cl в сточных водах и место отбора проб играют наиболее важную роль в классификации. Чем выше концентрация радионуклидов и Cl, тем больше вероятность того, что сточные воды имеют Ra226 и Ra228, полученные из горных пород. Точность обучения и испытаний для предсказания того, получены ли Ra226 и Ra228 из горных пород, составляют 100% и 83%, а также 93% и 86% соответственно.

Визуализация моделей дерева решений для Ra226 и Ra228 с источником породы позволяет предположить, что модели разумно построены с низким содержанием примесей или неопределенности, что приводит к лучшей классификации или разделению на каждом узле.

Модели дерева решений, кажется, более эффективны при прогнозировании классификации источников, чем модели регрессии при прогнозировании значений разделов источника. Результаты прогноза показывают, что классификация источников загрязнения Ra226 и Ra228 связана с определенными ионными концентрациями и сильно зависит от местоположения.

Вывод

В этой статье были изучены источники Ra во фрекинге и особенности, которые могут играть важную роль в определении таких источников. Обработка данных и развитие машинного обучения позволили выявить три источника загрязнения Ra:

  1. Загрязнение Ra в основном происходит из рассола и горных пород; По сравнению с другими химическими веществами, его источник способствует более высокому проценту общей концентрации в сточных водах.
  2. Модели линейной регрессии не являются хорошими методами для прогнозирования результатов разделения исходного кода по разным причинам. Плохая производительность также предполагает, что процентное содержание загрязнителей Ra226 и Ra228 в источниках не обязательно коррелирует с концентрациями химических веществ, а больше зависит от их концентраций в соответствующих источниках.
  3. Модели дерева решений работают нормально (или лучше, чем модели линейной регрессии) при прогнозировании классификации источников. Результаты показывают, что определенные химические концентрации и места, где отбираются пробы сточных вод, являются важными факторами, определяющими, получен ли Ra частично из горных пород.

Приведенный выше анализ носит чисто наблюдательный и субъективный характер, у каждого может быть множество способов определения и интерпретации загрязнителей в сточных водах гидроразрыва. Различные методы обработки данных могут привести к различным исходным компонентам и объяснениям. Кроме того, этот анализ не достиг высокой точности в основном из-за отсутствия последовательной выборки и маркировки, а также из-за небольшого размера выборки, что оставляло исследователям гораздо больше возможностей для пересмотра и работы по мере накопления данных. Чтобы узнать больше об этом анализе, перейдите по ссылке на мой Github здесь.