Наука о данных в нефти и газе

Классификация фаций с использованием машинного обучения без учителя в науках о Земле

Понимание структуры Земли с помощью кластеризации K-средних

Фации представляют собой однородные осадочные тела породы, которые достаточно различимы друг от друга с точки зрения физических характеристик (например, осадочной структуры, размеров зерен), отложившихся под действием относительно однородного гидродинамического режима в данной обстановке осадконакопления. Различные типы фаций, основанные на этих свойствах, включают осадочные фации, литофации, сейсмические фации и т. Д.

Физические и органические характеристики этих горных пород обычно дают некоторое представление о различных процессах и системах (например, среды осадконакопления), которые могли иметь место в регионе. Комбинации нескольких фаций с физическими моделями и другими геологическими данными могут помочь предоставить информативные низкоразмерные модели геологического региона, что приведет к лучшему пониманию геологии региона.

При разведке нефти и газа жизненно важно знать среду осадконакопления, так как она может помочь в получении достойной картины задействованных нефтяных систем. Нефтяная система состоит из нефтематеринских пород (горных пород, богатых органическим веществом, которые генерируют углеводороды при достаточном нагреве), пород-коллекторов (совокупности горных пород, содержащих запасы углеводородов, которые мигрируют из материнской породы) и скальных пород (относительно непроницаемых горных пород, которые образуют барьер вокруг пород-коллекторов, предотвращающий миграцию углеводородов за пределы коллектора). Последовательность фаций с песчаниками, например, может быть индикатором хорошего коллектора, поскольку они, как правило, обладают высокой проницаемостью и пористостью, идеальными условиями для хранения углеводородов. Общее правило, известное как закон фаций Вальтера, гласит, что вертикальная последовательность фаций отражает латеральные изменения в среде осадконакопления, то есть две смежные фации в пласте горных пород должны были отложиться латерально в формации. Следовательно, количество углеводородов на месте можно оценить, наблюдая за горизонтальной протяженностью и геометрией фаций, содержащих пласты-коллекторы.

Основные источники данных о подземных породах поступают из различных источников, большинство из которых связано с бурением. Идеальным источником данных для классификации фаций являются образцы керна (породы), полученные из пробуренных скважин, поскольку они позволяют напрямую оценить структуру осадочных пород. Однако их получение дорого, и в некоторых случаях это не всегда осуществимый вариант из-за затрат. В этих ситуациях необходимы косвенные измерения. В этом исследовании я сосредоточусь на журналах, проводимых на кабеле. Каротаж на кабеле включает в себя процесс опускания инструментов в скважину и регистрации измерений, которые детализируют физические характеристики окружающей породы и флюидов с глубиной. Это средство оценки коллекторов, поскольку оно помогает различать пласты, содержащие нефть, газ и воду, определять пористость, а также приблизительное количество углеводородов, присутствующих в каждом пласте.

Чтобы определить фации с использованием данных каротажа, аналитик должен проанализировать записи и определить приблизительную литологию с глубиной. С большими наборами данных это может стать довольно утомительным и очень неэффективным с точки зрения времени. Поэтому автоматизация этой процедуры необходима и может быть полезной для получения быстрого и достаточно точного представления о региональной геологии. Я продемонстрирую, как обучение без учителя может помочь в этом процессе, используя кластеризацию K-средних.

Область исследования

Анализ сосредоточен на северо-западном регионе Канзаса, США, в частности на бассейне Форест-сити. Этот бассейн был преимущественно мелководной нефтегазовой провинцией с некоторой добычей угля.

Я сосредоточился на регионе Немаха в бассейне Лесного города, где, как известно, есть залежи нефти и газа, и там было пробурено несколько скважин. Данные были получены благодаря геологической службе Канзаса, у которой есть общедоступные записи для различных скважин в регионе (см. Https://www.shalexp.com/kinney-oil-company для получения более подробной информации о скважинах).

Каротажные данные были получены в формате файла LAS отсюда и были проверены на качество и полноту данных. Критерием отбора было наличие восьми кривых, которые считались необходимыми для анализа. В таблице ниже показаны соответствующие кривые и свойства, которые они предоставляют в отношении горной породы. Все эти значения зависят от глубины, измеренной в футах.

Использование широкого набора каротажных диаграмм полезно, поскольку они не только предоставляют информацию о таких свойствах, как литология, пористость и электрическая проводимость пласта, но и используются в сочетании друг с другом, что может повысить точность оценки литологии за счет более высоких результатов в различных ситуациях. где отдельные журналы могут выйти из строя. Я проанализировал несколько скважин и смог получить 6 скважин с необходимыми кривыми. Затем эти кривые из разных скважин были объединены в один файл CSV для обработки. Также были включены названия скважин и пласт на каждой глубине. Информация о формации была получена на сайте http://www.kgs.ku.edu/Magellan/Qualified/index.html. Нефтяные скважины, принадлежащие Kinney Oil

Предварительная обработка и очистка данных

Описательная статистика была получена по необработанным данным для определения наличия пропущенных значений и потенциальных выбросов. Удаление выбросов имеет важное значение, поскольку их присутствие может увеличить вариабельность данных, снижая вероятность того, что результаты эксперимента будут статистически значимыми.

Подсчеты различались в разных каротажных диаграммах, что указывает на пропущенные значения для некоторых каротажных диаграмм. Кроме того, для некоторых каротажных диаграмм, которые не содержали данных, вместо этого было введено значение 999. Обычно проблема пропущенных значений может быть решена путем вменения среднего или медианного значения имеющихся значений. Однако геология может быть довольно сложной, и простая замена отсутствующих значений средним может не отражать фактическую геологию. Полные пропущенные значения составляли небольшую часть общих данных, поэтому вместо этого они были опущены. Столбец Безымянный также был опущен, поскольку он соответствовал индексу для измерений данных.

Удаление выбросов

Таким образом, отсутствующие данные были удалены, но если мы обратим внимание на максимальные значения для каждого каротажа скважины, мы заметим некоторые ситуации, когда максимальные значения значительно превышают среднее значение, что является красным флажком для выбросов. Давайте визуально проверим некоторые из этих данных.

Мы можем видеть некоторые данные, которые значительно превышают общую совокупность для некоторых журналов, особенно в журнале удельного сопротивления (ILD). Обратите внимание, что значения до 10 000 Ом / м для ILD действительно встречаются в природе для определенных литологий. Но значения удельного сопротивления для большинства типов горных пород попадают в диапазон, и значения до 10000 Ом / м также включают 2000 Ом / м в этом диапазоне. Судя по относительно низкой распространенности таких высоких значений, удаление этих значений может улучшить результаты кластеризации. Используя кривую ILD в качестве контрольной точки, я обнаружил, что сохранение значений, попадающих в 99,95-й квантиль, приводит к значению отсечки около 2000 Ом / м для ILD. Это было достаточно мягко, чтобы минимизировать потерю данных.

Поскольку некоторые литологии могут приводить к большим скачкам в определенных физических измерениях (например, ILD, CILD), был выбран натуральный логарифм, чтобы свести к минимуму изменчивость в значениях измерений. Это было применено к журналам ILD и CILD из-за большого диапазона их значений. Наконец, обработанные журналы были сохранены в файл CSV.

К-означает кластеризацию

После предварительной обработки данных важно выполнить выбор некоторых функций, чтобы обеспечить более быстрое обучение, а также меньшую сложность нашей модели и повышение точности. В нашем наборе данных есть два журнала, которые дают очень похожую информацию; журналы удельного сопротивления (ILD) и проводимости (CILD). Мы можем проверить это, проверив корреляцию между журналами, чтобы увидеть, насколько сильно они связаны.

features.corr() # compute correlation between the well log curves

Хотя есть некоторые высокие значения корреляции, для этого исследования корреляции 0,8 и выше были признаны статистически значимыми. Я выбрал высокое значение, потому что некоторые бревна действительно измеряют очень похожие свойства с точки зрения литологии, но они также имеют важные различия, которые могут помочь дифференцировать литологические характеристики друг от друга. Значения логарифмического сопротивления и проводимости имеют почти идеальную корреляцию, то есть они дают нам в основном одинаковую информацию. Поэтому проводимость была исключена из списка характеристик.

Затем данные были масштабированы с помощью модуля scale из пакета sklearn. Проблема с кластеризацией k-средних заключается в том, что мы не знаем, какое разделение кластеров является наиболее точным представлением наших данных. Поэтому я использовал два метода, которые могут дать нам представление об оптимальном размере кластера.

Начнем с техники локтя. Этот метод запускает кластеризацию K-средних для указанного количества кластеров и вычисляет внутреннюю сумму квадратов, то есть сумму разностей между каждой точкой в ​​кластере и назначенным ей центроидом кластера. Оптимальный кластер обычно выбирается как точка, в которой минимизируется сумма квадратов и последующие изменения для увеличения кластеров минимальны. Давайте проведем анализ кластеров размером от 1 до 12.

wcss = []  # Store within sum of square values for each cluster size
cl_num = 12 # Total number of clusters
for i in range (1,cl_num):
    kmeans = KMeans(i, random_state=10) 
    kmeans.fit(x_scaled)
    wcss_iter = kmeans.inertia_ # calculates the wcss
    wcss.append(wcss_iter)
wcss

Затем мы строим эти значения как функцию количества используемых кластеров.

number_clusters = range(1,cl_num)
plt.figure(figsize=(10,8))
plt.plot(number_clusters, wcss, '*-')
plt.xlabel('Number of clusters',fontsize=20)
plt.ylabel('Within-cluster Sum of Squares',fontsize=20)

Хотя это не очень очевидно, мы видим, что кривая начинает несколько сглаживаться в районе no of clusterters = 5. Мы можем дополнительно оценить оптимальный размер кластера, посмотрев на оценку силуэта. Оценка силуэта - это мера того, насколько объект похож на его собственный кластер (сплоченность) по сравнению с другими кластерами (разделение). Коэффициенты силуэта около 1 указывают на то, что образец находится далеко от соседних кластеров. Значение 0 указывает, что выборка находится на границе принятия решения между двумя соседними кластерами или очень близко к ней, а отрицательные значения указывают на то, что эти выборки могли быть назначены неправильному кластеру. Давайте посчитаем оценки силуэтов для разного количества кластеров, начиная с no of cluster = 5

from sklearn.metrics import silhouette_score
range_n_clusters = [5,6,7,8,9] # Number of clusters
for n_clusters in range_n_clusters:
    
    clusterer = KMeans(n_clusters=n_clusters, random_state=10)
    cluster_labels = clusterer.fit_predict(x_scaled)
    
    silhouette_avg = silhouette_score(x_scaled, cluster_labels)
    
    print("For n_clusters =", n_clusters,
          "The average silhouette_score is :", silhouette_avg)

Максимальное значение показателя силуэта - количество кластеров = 8. Значение 6 имело очень похожий балл по силуэту, но большее разделение лучше для идентификации фаций. Это связано с тем, что некоторые литологии имеют тенденцию переслаиваться друг с другом, поэтому большее количество кластеров может выявить эти закономерности.

Используя алгоритм KMeans из модуля sklearn’s cluster, данные каротажа были сгруппированы в 8 групп. Я использовал 100 случайных начальных начальных значений центроидов, чтобы увеличить вероятность нахождения разделения кластеров, которое лучше всего описывает данные.

Визуализация и интерпретация данных

Каротажные диаграммы и фации в зависимости от глубины для некоторых скважин были построены с использованием кодов, модифицированных из Brendan Hall.

Проверка результатов

Графики показывают латеральное изменение литологии в этом регионе из-за вариаций фаций на одной и той же глубине. Мы можем подтвердить эти результаты, получив некоторые знания о стратиграфии Канзаса. По данным KGS geology, доминирующими литологиями в этом регионе являются; песчаники, сланцы, доломиты, известняки с примесью алеврита, кремня и мела. Анализ образцов керна также предполагает присутствие среди прочего гипса и пирита. Мой анализ выделил 8 фаций, которые являются разумными результатами, основанными на известной информации. Различные породы имеют разные отклики каротажа, и эти отклики, используемые в комбинации, могут дать нам довольно хорошее представление о глубинной литологии. Различные ответы журнала для разных литологий можно найти здесь и здесь.

Если мы рассмотрим, например, формацию Виола, то в лесных акрах она представлена ​​преимущественно фациями 2. Он характеризуется чрезвычайно низкими значениями гамма-излучения, значениями плотности от 2,5 до 2,8 г / см3, значениями DT на нижнем уровне (47–67 мкс / фут). Значения PE показывают скачок на полпути через пласт, что указывает на присутствие другой литологии, но его общие свойства предполагают слой доломита с некоторыми включениями известняков в нем. В скважине Баумгартнера значения PE в нижней половине пласта подскакивают до значения 5 b / E, что указывает на известняки. Верхняя половина показывает свойства, аналогичные доломиту с точки зрения значения PE, и его уменьшающаяся нейтронная пористость в сочетании с относительно стабильной плотностью предполагает, что эта фация представляет собой комбинацию доломитов и известняков, то есть слой доломитового известняка. Таким образом, мы можем отнести Фации 7 и 5 как известняк и доломитовый известняк соответственно.

Формация Kinderhook в скважине Hartter показывает скачок в показаниях гамма-излучения, увеличение нейтронной пористости, с относительно стабильными показаниями плотности и гораздо более низкими показаниями удельного сопротивления. Внезапное увеличение звуковой пористости в дополнение к ранее упомянутым свойствам указывает на слой сланца для Facies 4. Формация Виола в этой скважине также имеет очень похожие свойства, но значения звуковой пористости ниже, а несколько более высокие значения удельного сопротивления по сравнению с формацией Киндерхук предполагают включение песков, известняка или доломитов. Однако значения PE ниже, чем у доломитов или известняков, что позволяет предположить, что Фация 1 является слоем песчаного сланца. Наконец, низкие значения гамма-излучения в верхних частях формации Хантон в сочетании с падением нейтронной пористости и увеличением плотности и значений PE в доломитовом диапазоне предполагают режим доломитового песка для Фации 3.

Ссылка на KGS geology показывает, что формация Виола состоит из мелкозернистых и крупнозернистых известняков и доломитов, содержащих различное количество кремня. Он также подчеркивает, что формация Хантон в основном состоит из серого и коричневого, мелкозернистого, кристаллического доломита или известняка с небольшими примесью кремня в некоторых частях. Это также немного более крупнозернистый и слегка песчаный доломит с кавернозной пористостью с небольшим количеством кремня в других частях формации. Это согласуется с моим анализом, который показывает, что известняки и доломиты составляют большую часть литологии в этих формациях.

Резюме

Неконтролируемое машинное обучение может быть отличным способом быстро получить представление о ваших данных с минимальными затратами и может быть руководством для дополнительной контролируемой работы, как показано в этом исследовании. Однако, какими бы привлекательными ни были перспективы этого метода, важно помнить об оговорках, связанных с этим методом.

Оптимальное количество кластеров предсказать непросто и в большинстве случаев может быть субъективным. Большинство литологий не полностью однородны и, как правило, включают разные типы пород, поэтому найти оптимальное значение k сложно, а иногда и невозможно, и может потребоваться априорное знание. Кроме того, кластеры могут изменяться в зависимости от начального начального положения центроида. Это также непрактичное решение для ситуаций, когда имеется огромное количество данных. В таких случаях предпочтительно использовать методы обучения с учителем. В будущей работе я продемонстрирую, как сверточную нейронную сеть можно применить для классификации фаций, а также для оценки ее эффективности с точки зрения точности и других показателей.

Комментарии и отзывы приветствуются. Коды, а также набор данных будут предоставлены здесь в недалеком будущем, а мой профиль в Linkedin можно будет найти здесь. Надеюсь, статья вам показалась интересной, это был интересный проект для исследования!

Ибинабо Бестманн