Машинное обучение в металлургии и материаловедении
15 января 1919 года в тихом районе на севере Бостона назревала катастрофа.
Совершенно неожиданно по городу прогремел громкий взрыв, и прежде, чем кто-либо узнал, что происходит, 12 000 тонн патоки хлынули на улицы со скоростью почти 60 км / ч, убит 21 и ранено 150.
Говорят, что и по сей день в жаркий летний день северный Бостон пахнет патокой.
Сильное наводнение патоки было главным примером разрушения материала из-за термической усталости. Температура в тот роковой день колебалась от отрицательных двузначных цифр до положительных. Это привело к ослаблению резервуара, в котором хранилась патока. Это, в сочетании с повышенным давлением, вызванным брожением из-за высокой температуры, привело к разрыву резервуара.
Сегодня у нас есть и технологии, и материалы, чтобы предотвратить повторение такой глупой, но разрушительной катастрофы. Но по мере того, как мы продвигаемся к новым смелым рубежам, пределы указанной технологии и материалов будут проверены.
Как мы можем протестировать эти материалы в таких высокоэнергетических, высокоспецифичных, а иногда и в опасных средах?
Мы можем использовать машинное обучение.
Хорошо, но почему?
Этот проект был личным испытанием, которое я получил во время моего визита в Гамильтон Онтарио для компании Deltahacks, где Arcelormittal, крупнейший производитель стали в мире, спонсировал мероприятие. Поскольку их штаб-квартира Dofasco находилась прямо на улице, я спросил их, что они делают по-другому. Основные моменты их разработки включали использование ИИ в инвентаре, транспорте и т. Д. и управленческие стороны организации, но ни одна из них не повлияла на исследования и разработки.
Поскольку я был очарован идеей научного прогресса, основанного на данных, я предложил несколько способов, которыми компания могла бы использовать ИИ для улучшения НИОКР, одного из самых дорогих и трудоемких компонентов любой крупной корпорации, такой как Arcelormittal. Некоторые идеи высокого уровня включали:
- Виртуальный скрининг с высокой пропускной способностью
- Автоматизированные лабораторные эксперименты
- Открытие и оптимизация молекул (обратные модели)
- Прогнозирование свойств молекул (прямые модели)
Последний был особенно интересным, и меня спросили, можно ли предсказать температуру плавления данного металла, особенно если металл никогда раньше не синтезировался. Я ответил одним из основных принципов в контролируемом обучении, сформулированном таким образом, что даже великий Архимед одобрил бы:
Дайте мне достаточно большой набор данных и правильную модель машинного обучения, и я все предскажу (с определенной степенью точности).
Это серьезное, а иногда и опасное упрощение, я сказал, что посмотрю, что я могу сделать.
Это предложение стало Project Molten.
Проект Расплавленный
Project Molten - это нейронная сеть, построенная для прогнозирования температуры плавления (в градусах Цельсия) данной молекулы. Обученная на наборе данных из более чем 28 000 меченых молекул, модель оказалась жизнеспособной для использования в реальных приложениях, особенно в металлургии, металлографии и материаловедении.
Важно отметить, что молекулы, используемые в Project Molten, не полностью сделаны из металлов; в наборе данных есть множество молекул.
Такая модель может быть полезна при прогнозировании катастрофы из-за разрушения термического материала, например, большого наводнения, вызванного патокой.
Модель получает строку SMILES в качестве входных данных и выводит прогнозируемую температуру плавления. Строки SMILES однозначно отображаются в целое число с помощью словаря и дополняются нулями, чтобы гарантировать, что все они имеют одинаковую длину. Длина заполнения определялась добавлением 1 дополнительного 0 к самой длинной строке SMILES в наборе данных. В этом случае длина всех строк после заполнения составляет 282 символа.
Нормализация набора данных является важным шагом в этом проекте просто потому, что она снижает вычислительную нагрузку, необходимую для обучения алгоритма, экономя время и упрощая процесс. Существует два популярных способа нормализации: либо разделение заданного входа на общее количество уникальных входов, либо нормализацию от 0 до 1 с использованием x-min(x))/(max(x)-min(x))
.
После нормализации как строк SMILES, так и температур, наборы данных были разделены на 90% для использования в обучении и 10% для сохранения для тестирования. Также можно было выделить набор проверки, но, чтобы получить как можно больше обучающих данных, его оставили как есть. Небольшая часть кода была выделена assert
, чтобы наборы данных были одинакового размера и были готовы к приему в сеть.
Модель нейронной сети создается с помощью библиотеки PyTorch ML, которая делает определение сетевых параметров Pythonic простым и понятным. Использовалась среднеквадратическая ошибка (MSE
) с Adam
оптимизатором. Скорость обучения (lr
) установлена на 0,001, но ее можно свободно настраивать и экспериментировать. Обученные более 100 эпох, потери запрограммированы на печать каждые 10 эпох вместе с текущими текущими потерями.
Обратите внимание на форму сети; 282 входных нейрона используются для соответствия размеру заполненных и целочисленных строк SMILES. Начиная со второго скрытого слоя, количество нейронов на слой уменьшается примерно вдвое. Выходной слой - 1; чтобы вычислить форму нашего вывода, которая, если все работает, представляет собой единственное прогнозируемое число, которое будет расчетной температурой точки плавления в градусах Цельсия, включая отрицательные значения.
Основные выводы и возможные направления
Project Molten - это рудиментарный пример того, как машинное обучение может быть использовано при исследовании и разработке материалов. В конечном итоге этот проект является предшественником Project Deliqueces, который все еще находится в разработке. Цель Project Deliqueces - использовать эту обученную модель в качестве компонента генеративной модели, которая сможет генерировать новые молекулы с заданной температурой точки плавления. Дальнейшая работа будет сосредоточена на поиске способов создания этих молекул в форме строк SMILES или, возможно, с использованием более точного молекулярного представления, такого как молекулярные графы.
В будущем устройства IoT смогут собирать жизненно важные данные об окружающей среде, которые затем можно будет использовать для вычислений, обучения контролируемых моделей обучения и выполнения прогнозов в реальном времени, что снизит вероятность о материальных сбоях и более глубоком понимании причин, если случится еще одно стихийное бедствие. В мире, где лесные пожары, повышение уровня моря и участившиеся стихийные бедствия становятся все более частыми, обеспечение готовности нашей инфраструктуры к тяжелым трудам никогда не было более важным.
Надеюсь, нам больше не придется беспокоиться о патокалипсисе.
Ключевые выводы
- Машинное обучение находит применение в отрасли, помимо автоматизации
- Нормализация данных в области науки имеет решающее значение
- Уделять некоторое внимание предвидению; думайте на два шага впереди себя
Хотите увидеть больше подобного контента?
Подпишитесь на меня в LinkedIn, Facebook, Instagram и, конечно же, на Medium, чтобы получить больше контента.
Весь мой контент находится на моем веб-сайте, а все мои проекты - на GitHub
Я всегда хочу познакомиться с новыми людьми, сотрудничать или узнать что-то новое, поэтому не стесняйтесь обращаться к [email protected]
Вверх и вперед, всегда и только 🚀
📝 Прочтите этот рассказ позже в Журнале.
🗞 Просыпайтесь каждое воскресное утро и слышите самые интересные истории, мнения и новости недели, ожидающие в вашем почтовом ящике: Получите примечательный информационный бюллетень›