Самая большая искусственная дыра на Земле имеет глубину всего около 12 км (Кольская сверхглубокая скважина). Поэтому геофизики изо всех сил пытаются понять внутреннюю структуру Земли, радиус которой составляет 6 371 км. Учитывая экстремальные давления и температуры в недрах Земли, невозможно напрямую исследовать структуру Земли дальше этой глубины. Точно так же в науке о данных нет прямой информации о связи между функциями, особенно в многомерной среде, и целевой переменной.

С этой целью исследователи используют геофизические методы для преодоления этой проблемы и моделирования более глубоких слоев Земли. Одним из вышеупомянутых геофизических методов является сейсмическая томография, которая анализирует информацию о сейсмических волнах, проходящих через Землю, для получения томографических изображений ее недр и извлечения полезной информации. Сейсмическая томография предназначена для определения структуры недр Земли по записям на поверхности Земли. Данные о бегущих волнах в недрах Земли собираются с помощью сейсмометров. Затем эти данные анализируются с использованием методов машинного обучения для извлечения полезной информации о недрах Земли. Таким образом, наблюдаемые в данном случае представляют собой записи сейсмограмм, которые могут быть в виде неструктурированных (формы сейсмических волн) или структурированных (время прихода, т. е. время, необходимое для того, чтобы сейсмическая волна достигла поверхности Земли) данных. Принимая определение науки о данных как «область, которая использует научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из множества структурных и неструктурированных данных», мы видим, что геофизические проблемы соответствуют этому определению. Другими словами, мы хотим извлекать знания и идеи о недрах Земли, используя структурированные и/или неструктурированные данные (как объяснялось ранее), используя только косвенную информацию, полученную с поверхности Земли. Таким образом, и наука о данных, и геофизика используют научные методы для использования информации, полученной из данных, и преобразования ее в полезную информацию.

На практике как наука о данных, так и геофизические задачи часто требуют минимизации функции стоимости, чтобы согласовать наблюдаемые данные с смоделированными путем корректировки параметров модели (коэффициентов). Эта функция стоимости может быть получена от простого обычного метода наименьших квадратов до более сложной, такой как использование глубоких нейронных сетей. В отличие от науки о данных, обратная геофизическая задача часто включает физическое решение для моделирования данных, например решение волнового уравнения. С другой стороны, в науке о данных наблюдения за данными — это характеристики, которые необходимо смоделировать, а параметры модели — это коэффициенты, которые необходимо скорректировать. Физическое решение проблемы предсказания модели представляет собой существенную разницу между двумя областями в том смысле, что в науке о данных может не быть детерминированной математической связи, описывающей смоделированные данные с наблюдаемыми.

Этап инверсии включает в себя настройку параметров модели, чтобы сопоставить прогнозы модели с наблюдениями за данными, т. е. сделать выводы на основе данных. Минимизация функции стоимости часто требует использования метода оптимизации, такого как методы градиентного спуска и сопряженного градиента. Процесс настройки параметров модели связан с многочисленными проблемами, включая неединственность решения и нелинейный характер обратной задачи. Введение параметров регуляризации в геофизические задачи, таких как демпфирование и сглаживание, используется для решения проблемы неуникальности решения путем сокращения потенциально бесконечного набора моделей подбора данных до одной, которая сохраняет наиболее желательные свойства. Выбор этих специальных параметров часто может быть достигнут с использованием точки максимальной кривизны L-кривой. Если бы мы позволили подгонке данных свободно соответствовать наблюдениям без явного выбора параметра демпфирования, то из-за недоопределенного характера проблемы он, вероятно, сошёлся бы к локальному минимуму, который удовлетворяет, например, только подмножеству данных наблюдений. Точно так же в науке о данных вводится коэффициент демпфирования, чтобы уменьшить дисперсию модели, что приводит к переоснащению определенного подмножества наблюдений (часто разделенных на обучающие и тестовые наборы). Однако решение проблемы высокой дисперсии в науке о данных решается по-другому, обычно с использованием перекрестной проверки в K-кратном размере и/или настройки гиперпараметров.

И последнее, но не менее важное: знание предметной области чрезвычайно важно как в науке о данных, так и в геофизических задачах. Именно это знание повышает ценность результатов, гарантируя, что обработка данных была выполнена правильно, и, следовательно, имеет жизненно важное значение для извлечения значимой информации. Например, необходимость понимания строения Земли является одним из наиболее важных аспектов, которые ученым предстоит изучить более подробно. Можно прогнозировать различные явления, такие как место землетрясения, и, таким образом, принимать меры предосторожности, чтобы избежать опасных последствий. Точно так же в науке о данных для разработки значимых функций (конструирование функций) вам необходимо очень хорошо понимать предметную область, чтобы они имели как можно большую предсказательную силу. Однако многие приложения, основанные на результатах геофизических исследований, могут иметь косвенное влияние в реальном мире. В любом случае и наука о данных, и геофизика могут оказать реальное влияние или способствовать дальнейшему пониманию конкретной области.

В заключение, учитывая формулировку обратной задачи, описанную выше, мы можем наблюдать последовательное сходство между геофизическими задачами и наукой о данных, которые используют различные методы машинного обучения. Применение методов машинного обучения для извлечения информации из данных без явного программирования обеспечивает общую основу между этими двумя областями. Научные методы, используемые в косвенном подходе для получения информации из структурированных или неструктурированных данных, и важность понимания предметной области делают науку о данных и геофизические проблемы взаимосвязанными.