Машинное обучение в металлургии и материаловедении

15 января 1919 года в тихом районе на севере Бостона назревала катастрофа.

Совершенно неожиданно по городу прогремел громкий взрыв, и прежде, чем кто-либо узнал, что происходит, 12 000 тонн патоки хлынули на улицы со скоростью почти 60 км / ч, убит 21 и ранено 150.

Говорят, что и по сей день в жаркий летний день северный Бостон пахнет патокой.

Сильное наводнение патоки было главным примером разрушения материала из-за термической усталости. Температура в тот роковой день колебалась от отрицательных двузначных цифр до положительных. Это привело к ослаблению резервуара, в котором хранилась патока. Это, в сочетании с повышенным давлением, вызванным брожением из-за высокой температуры, привело к разрыву резервуара.

Сегодня у нас есть и технологии, и материалы, чтобы предотвратить повторение такой глупой, но разрушительной катастрофы. Но по мере того, как мы продвигаемся к новым смелым рубежам, пределы указанной технологии и материалов будут проверены.

Как мы можем протестировать эти материалы в таких высокоэнергетических, высокоспецифичных, а иногда и в опасных средах?

Мы можем использовать машинное обучение.

Хорошо, но почему?

Этот проект был личным испытанием, которое я получил во время моего визита в Гамильтон Онтарио для компании Deltahacks, где Arcelormittal, крупнейший производитель стали в мире, спонсировал мероприятие. Поскольку их штаб-квартира Dofasco находилась прямо на улице, я спросил их, что они делают по-другому. Основные моменты их разработки включали использование ИИ в инвентаре, транспорте и т. Д. и управленческие стороны организации, но ни одна из них не повлияла на исследования и разработки.

Поскольку я был очарован идеей научного прогресса, основанного на данных, я предложил несколько способов, которыми компания могла бы использовать ИИ для улучшения НИОКР, одного из самых дорогих и трудоемких компонентов любой крупной корпорации, такой как Arcelormittal. Некоторые идеи высокого уровня включали:

  • Виртуальный скрининг с высокой пропускной способностью
  • Автоматизированные лабораторные эксперименты
  • Открытие и оптимизация молекул (обратные модели)
  • Прогнозирование свойств молекул (прямые модели)

Последний был особенно интересным, и меня спросили, можно ли предсказать температуру плавления данного металла, особенно если металл никогда раньше не синтезировался. Я ответил одним из основных принципов в контролируемом обучении, сформулированном таким образом, что даже великий Архимед одобрил бы:

Дайте мне достаточно большой набор данных и правильную модель машинного обучения, и я все предскажу (с определенной степенью точности).

Это серьезное, а иногда и опасное упрощение, я сказал, что посмотрю, что я могу сделать.

Это предложение стало Project Molten.

Проект Расплавленный

Project Molten - это нейронная сеть, построенная для прогнозирования температуры плавления (в градусах Цельсия) данной молекулы. Обученная на наборе данных из более чем 28 000 меченых молекул, модель оказалась жизнеспособной для использования в реальных приложениях, особенно в металлургии, металлографии и материаловедении.

Важно отметить, что молекулы, используемые в Project Molten, не полностью сделаны из металлов; в наборе данных есть множество молекул.

Такая модель может быть полезна при прогнозировании катастрофы из-за разрушения термического материала, например, большого наводнения, вызванного патокой.

Модель получает строку SMILES в качестве входных данных и выводит прогнозируемую температуру плавления. Строки SMILES однозначно отображаются в целое число с помощью словаря и дополняются нулями, чтобы гарантировать, что все они имеют одинаковую длину. Длина заполнения определялась добавлением 1 дополнительного 0 к самой длинной строке SMILES в наборе данных. В этом случае длина всех строк после заполнения составляет 282 символа.

Нормализация набора данных является важным шагом в этом проекте просто потому, что она снижает вычислительную нагрузку, необходимую для обучения алгоритма, экономя время и упрощая процесс. Существует два популярных способа нормализации: либо разделение заданного входа на общее количество уникальных входов, либо нормализацию от 0 до 1 с использованием x-min(x))/(max(x)-min(x)).

После нормализации как строк SMILES, так и температур, наборы данных были разделены на 90% для использования в обучении и 10% для сохранения для тестирования. Также можно было выделить набор проверки, но, чтобы получить как можно больше обучающих данных, его оставили как есть. Небольшая часть кода была выделена assert, чтобы наборы данных были одинакового размера и были готовы к приему в сеть.

Модель нейронной сети создается с помощью библиотеки PyTorch ML, которая делает определение сетевых параметров Pythonic простым и понятным. Использовалась среднеквадратическая ошибка (MSE) с Adam оптимизатором. Скорость обучения (lr) установлена ​​на 0,001, но ее можно свободно настраивать и экспериментировать. Обученные более 100 эпох, потери запрограммированы на печать каждые 10 эпох вместе с текущими текущими потерями.

Обратите внимание на форму сети; 282 входных нейрона используются для соответствия размеру заполненных и целочисленных строк SMILES. Начиная со второго скрытого слоя, количество нейронов на слой уменьшается примерно вдвое. Выходной слой - 1; чтобы вычислить форму нашего вывода, которая, если все работает, представляет собой единственное прогнозируемое число, которое будет расчетной температурой точки плавления в градусах Цельсия, включая отрицательные значения.

Основные выводы и возможные направления

Project Molten - это рудиментарный пример того, как машинное обучение может быть использовано при исследовании и разработке материалов. В конечном итоге этот проект является предшественником Project Deliqueces, который все еще находится в разработке. Цель Project Deliqueces - использовать эту обученную модель в качестве компонента генеративной модели, которая сможет генерировать новые молекулы с заданной температурой точки плавления. Дальнейшая работа будет сосредоточена на поиске способов создания этих молекул в форме строк SMILES или, возможно, с использованием более точного молекулярного представления, такого как молекулярные графы.

В будущем устройства IoT смогут собирать жизненно важные данные об окружающей среде, которые затем можно будет использовать для вычислений, обучения контролируемых моделей обучения и выполнения прогнозов в реальном времени, что снизит вероятность о материальных сбоях и более глубоком понимании причин, если случится еще одно стихийное бедствие. В мире, где лесные пожары, повышение уровня моря и участившиеся стихийные бедствия становятся все более частыми, обеспечение готовности нашей инфраструктуры к тяжелым трудам никогда не было более важным.

Надеюсь, нам больше не придется беспокоиться о патокалипсисе.

Ключевые выводы

  • Машинное обучение находит применение в отрасли, помимо автоматизации
  • Нормализация данных в области науки имеет решающее значение
  • Уделять некоторое внимание предвидению; думайте на два шага впереди себя

Хотите увидеть больше подобного контента?

Подпишитесь на меня в LinkedIn, Facebook, Instagram и, конечно же, на Medium, чтобы получить больше контента.

Весь мой контент находится на моем веб-сайте, а все мои проекты - на GitHub

Я всегда хочу познакомиться с новыми людьми, сотрудничать или узнать что-то новое, поэтому не стесняйтесь обращаться к [email protected]

Вверх и вперед, всегда и только 🚀

📝 Прочтите этот рассказ позже в Журнале.

🗞 Просыпайтесь каждое воскресное утро и слышите самые интересные истории, мнения и новости недели, ожидающие в вашем почтовом ящике: Получите примечательный информационный бюллетень›