Я часто вижу этот аргумент, обычно вместе со списком логотипов крупных технологий.

С частью этого вывода я согласен: нефть была ключевым ингредиентом промышленной революции и определяла курс цивилизации. Если у вас не было нефти или энергии, которую она производила — прямо или косвенно — у вас не было бизнеса.

Кроме того, с тех пор частные предприятия и правительства строили свою жизнь с идеей, что до тех пор, пока они контролируют этот ключевой ресурс, они останутся актуальными.

Логически непоследовательной частью является вывод о том, что, как и в случае с нефтью, данных мало и/или это ресурс, который может быть истощен.

Сама вселенная — это __данные__, и, в отличие от нефти, ее количество не уменьшается при потреблении. Обилие доступных данных пугающе огромно и доступно всем для потребления и использования, пока у вас есть орган чувств.

Так что нет, данные — это не новая нефть; не все так просто.

Однако есть загвоздка в том, что, хотя данные можно использовать бесплатно, обучение нейронной сети имитировать человеческое сенсорное восприятие не работает с этими бесплатными данными. Вместо этого вам нужны аннотированные данные, по крайней мере, если вы используете традиционный метод машинного обучения.

Эти аннотированные данные действительно являются плодом любви и требуют много ручных усилий и работы. Обычно тот факт, что «данные — это новая нефть», аннотаторы с потогонной системой произносят более яростно, чем кто-либо другой.