Пролог - Роллин в поле

Много лет назад, во время моей первой работы в крупной (супер) нефтяной компании, я отвечал за принятие важных решений по скважинам, пробуренным на наземном газовом месторождении. Каждая из этих скважин была пробурена быстро, в среднем за 5–7 дней. Геология была хорошо известна, коллекторы, в общем, были экономическими, а эксплуатационные риски от бурения были довольно низкими и управляемыми.

Несмотря на очевидную однородность (в геологии нет ничего однородного) региональной геологии этого месторождения, геологам (таким как я) приходилось выполнять очень ручную работу.

Когда мы приближались к секции пласта для каждой скважины, мне требовалось подтвердить, что мы приближаемся к пласту на основе данных, полученных во время бурения. В промышленности это называется каротажем при бурении или каротажем LWD.

После подтверждения того, что мы достигли секции коллектора, от меня потребовали подтвердить общую глубину (TD) скважины на основе нашего картирования толщины коллектора. Наконец, после подтверждения TD от меня потребовали ознакомиться с заключительными каротажными диаграммами, чтобы принять решение об отключении скважины для производственных целей. Несмотря на все наши усилия, не каждая скважина будет рентабельной, поэтому мне пришлось принять решение о том, достаточно ли газа (платы) в пласте, чтобы гарантировать установку в скважину обсадной колонны производственного качества.

Все это было очень интересно и круто, пока не осознаешь две основные проблемы:

  1. Буровые работы ведутся круглосуточно, поэтому вы можете (и будете) получать звонки 24 часа в сутки, 7 дней в неделю.
  2. Эти скважины были пробурены быстро. Я отвечал за 2–3 линии буровой установки, и это означало, что мне приходилось регулярно сталкиваться с этими вызовами, практически без простоев.

Это потребовало много ночей в дополнение к ранним утренним вызовам буровой установки. Я все думал, что должен быть способ получше ...

Это явно проблема, которую можно решить с помощью машинного обучения!

Однако это было в 2007–2008 годах, и современное машинное обучение только зарождалось и не существовало в таких отраслях, как нефть и газ.

Перенесемся в прошлую осень. В 2016 году SEG (Общество геофизиков-исследователей) поставило на Github задачу использовать машинное обучение для интерпретации образцов каротажных диаграмм для типов / формаций горных пород.

Жажда забавных проектов, я нырнула, чтобы посмотреть, что я могу сделать ...

Rockin 'главный вопрос

«В последнее время очень много интересуют большие данные и острая потребность в специалистах по данным, которые обладают способностью извлекать из них смысл. Между тем геофизики годами занимались наукой, опираясь на объемные данные, и им не нужно было хвастаться их масштабами. Но теперь, когда широко доступны большие и сложные наборы данных, появилось множество инструментов и методов их анализа. Сейчас существует множество бесплатных пакетов с открытым исходным кодом, которые обеспечивают мощные дополнения к набору инструментов геофизиков, большая часть которых раньше была доступна только на проприетарных (и дорогих) программных платформах ...

… В нашем случае это будут данные ГИС из девяти газовых скважин. Этим скважинам уже были присвоены классы литофаций на основе описаний керна. После обучения классификатора мы будем использовать его для присвоения фаций скважинам, которые не были описаны ».

Ладно, настоящий разговор, это почти ничего не значит для тех, кто не геофизики или хорошо разбирается в предмете. Однако его можно просто перегонять до ...

Можем ли мы предсказать фации горных пород?

Допустим, не геофизиолог, что именно представляет собой фация горных пород?

Фации осадочных пород - это основной способ классификации различных типов осадочных пород на основе среды их осадконакопления. Простым примером этого является аллювиальный песчаник - название, данное песчанику, образовавшемуся в ручье или реке. Фации горных пород - это то, что дает нам представление о том, где, вероятно, могут быть или нет нефть и газ.

Извлекаем из данных все, что можем

Набор данных поступил из Университета Канзаса, сосредоточив внимание на газовых месторождениях Хьюготон и Панома. Он имеет 7 функций (5 измерений на кабеле по каротажным диаграммам и 2 индикаторных переменных), а также метку фаций каждые 6.

Слева - образец каротажа скважины. Эти данные обычно записываются либо во время операций бурения, либо после завершения бурения скважины с помощью инструментов на бурильной колонне или инструментов на кабеле, спускаемых в скважину. Результаты, как правило, являются единственной информацией, которую геологи имеют о рассматриваемой скважине, за исключением описаний горных пород из выбуренной породы, циркулирующей по стволу скважины.

Обычно геофизики берут журналы и делают корреляции вручную. Им придется провести линии от каротажа к каротажу, чтобы получить целостное представление о типе / фации породы, их характеристиках (пористость / проницаемость / способность удерживать и пропускать флюиды) и их содержании (вода, нефть, газ и т. Д.) . Это может быть утомительно в зрелых областях и может быть неправильно истолковано в новых областях.

Цель этого проекта - спрогнозировать метку фаций (не в таблице ниже, а в дальнем правом углу каротажной диаграммы выше) для удерживающего набора, на котором авторы могут запустить модель, чтобы оценить успешность модели.

Выход из каменного века…

Я взял данные выше и выполнил простую разработку функций.

Во-первых, я закодировал названия формаций (которые содержат ценную информацию о среде осадконакопления), используя фиктивные переменные.

Затем я разделяю данные на обучающий и тестовый наборы, удаляя фациальную информацию из набора данных.

Теперь, когда мои данные были упорядочены, настало время для выбора модели.

Эта модель многоклассовой классификации была для меня новой, поскольку она не предсказывала двоичные результаты. Я хотел исследовать нечто большее, чем простой случайный лес, и исследовать, что Я мог просто обойтись с данными.

Поэтому я решил оценить две разные модели:

  1. OVO (один против одного классификатора)
  2. Случайный лес

Я сделал все очень просто, так как это был дневной проект, но результаты были очень интересными ...

Результаты рок-звезды!

Проблема, как указано, будет оцениваться с использованием балла F1.

Изначально я был незнаком с этой метрикой, в отличие от потерь журнала, AUC и других метрик, поэтому я провел небольшое исследование.

Оценка F1 - это среднее гармоническое значение точности и запоминания.

Модель будет оценивать как точность прогноза фаций, так и точность прогнозов соседних фаций.

Я оценил обе свои модели, и результаты были довольно сумасшедшими:

Классификатор OVO—

Классификаторы OVO разбивают задачу на множество сравнений 1: 1 и учатся различать разные результаты. Требуется K (K-1) / 2 двоичных классификаторов, чтобы разбить задачу мультикласса на двоичные классы. Затем он оценивает то, что является лучшим с точки зрения голосов для каждого наблюдения в каждом прогоне, и ранжирует, каким будет окончательный результат класса, на основе этих голосов.

Оценка F1 для OVO была ниже, чем результаты других моделей на репозитории Github².

Однако посмотрите на результаты моего набора тестов для модели случайного леса…

Случайный лес -

В моем тестовом наборе мой результат превзошел на 0,1 балла лучший результат в неформальном соревновании. Неплохо для игры после обеда ...

Однако это почти тоже хорошо…

Я никогда официально не отправлял свою модель, поэтому мне не удалось на самом деле проверить свой результат F1 для официального набора отклонений.

Прокатитесь мимо моей неуверенности ...

Синдром самозванца - страх… ³

Однако рок-н-ролл может спасти вашу душу!

Я знаю, что вы тоже боролись с этим, каждый из вас.

Разговор об этом помогает. Написание об этом помогает. Пение об этом помогает! Самовыражение с помощью любых средств, значимых для вас, помогает.

Благодаря письменному слову, формулированию мыслей, размышлений и знаний я каждый день преодолеваю эти трудности.

Говорите и делайте то, что заставляет вас чувствовать себя некомфортно каждый день. Я взял то, что мне было удобно, геолого-геофизические науки, и смешал это с тем, что сначала доставляло мне дискомфорт, - программированием.

Теперь я чувствую себя более уверенно в своих навыках обработки данных и программирования, делая что-то неудобное каждый день.

Нравится то, что вы читаете? Следите за обновлениями в ближайшие недели, и я буду писать статьи о маркетинговой аналитике и о том, как рассказывать убедительные истории, ориентированные на клиента, используя данные в качестве инструмента.

Пропустили серию статей о моей карьере? Как я перешел от науки о Земле к науке о данных? Прочтите здесь, чтобы проследить за моим путешествием…

¹Подробнее: http://library.seg.org/doi/10.1190/tle35100906.1#_i2

² https://github.com/seg/2016-ml-contest

³ https://en.wikipedia.org/wiki/Impostor_syndrome