Хроники GSoC’23: восьмая неделя кодирования (8)
Базовые модели с моделями Automl
Добро пожаловать в мой последний пост в блоге, где я очень рад поделиться прогрессом, достигнутым за восьмую неделю программы Google Summer of Code (GSOC). Я прошу прощения за то, что не сообщил вам об этом на 7-й неделе; Я был под погодой. Не волнуйтесь, я расскажу обо всех обновлениях за обе недели в этом посте.
В моем предыдущем сообщении в блоге за неделю 6 я упомянул, что сосредоточился на создании базовых моделей для двух наборов данных и работе над классом InMemoryDataset для набора данных о раке молочной железы. Хотя эти задачи начались на 7-й неделе, я рад сообщить, что они были выполнены на 8-й неделе! Давайте погрузимся в прогресс, которого я добился за эти две недели.
Мой прогресс на 8 неделе
В течение этой недели мое основное внимание было сосредоточено на двух важных задачах: создании класса InMemoryDataset для набора данных о раке молочной железы и построении базовых моделей с использованием autokeras и FLAML.
Для начала я изучил FLAML для построения базовой модели. Мой наставник предложил эту облегченную библиотеку Python для эффективной автоматизации машинного обучения и операций ИИ, включая выбор модели и настройку гиперпараметров. Используя flaml.AutoML
, ориентированный на задачи класс AutoML, я включил его в свой проект и обнаружил, что он превосходит как autokeras, так и базовую модель GNN. Производительность тестового набора была особенно впечатляющей. Используемые параметры показаны ниже:
Производительность на тестовом наборе показана ниже:
Двигаясь дальше, я занялся созданием класса InMemoryDataset
для набора данных о раке молочной железы. Следуя той же процедуре, которую я использовал для набора данных ACC, я обернул набор данных рака молочной железы в этот класс. Реализовав четыре основные функции, как я объяснял в отчете за неделю 6, я смог легко создать класс. Я использовал существующие функции из класса набора данных ACC, внеся лишь незначительные изменения, чтобы обеспечить загрузку правильного набора данных.
Резюме достигнутого прогресса
За эту неделю я добился значительных успехов в своем проекте:
- Создал надежную базовую модель для набора данных ACC с использованием FLAML. Производительность модели была замечательной: прогнозная mse составила 694, что превзошло результаты других методов моделирования.
- Успешно разработан класс InMemoryDataset для набора данных о раке молочной железы. В результате я получил исчерпывающий список объектов данных как для набора поездов, так и для тестового набора данных о раке молочной железы.
Проблемы, с которыми столкнулись
В течение недели я столкнулся с минимальными проблемами. Единственным небольшим препятствием, с которым я столкнулся, было первоначальное понимание того, как использовать FLAML для построения моделей. К счастью, хорошо документированные и информативные учебные пособия на странице GitHub предоставили четкое руководство, позволившее мне быстро преодолеть это препятствие.
Мои планы на следующую неделю
После продуктивного еженедельного общения с моими наставниками мы наметили следующие шаги для завершения отправки набора данных в PyG:
- Усовершенствуйте класс InMemoryDataset для набора данных о раке молочной железы: я сосредоточусь на использовании только основных функций и меток, а не на включении отдельных обучающих и тестовых наборов, разделенных с соотношением 80:20. Это обеспечивает единый формат набора данных, предоставляя пользователям возможность разбивать набор данных в соответствии со своими предпочтениями. Это также необходимо для обеспечения согласованности с другими наборами данных в PyTorch Geometric.
- Создайте проверочный набор и переобучите модели для набора данных о раке молочной железы, используя широко распространенное соотношение 60:20:20 для обучения, проверки и разделения тестов. Этот подход исследует альтернативные методы повышения производительности модели. При значительном размере набора данных наличие трех разбиений позволяет проводить надежные эксперименты без ущерба для размера данных.
В целом, эти последние недели были невероятно продуктивными, и результаты были многообещающими. Я с нетерпением жду возможности поделиться новыми новостями и идеями в ближайшие недели. Спасибо, что дочитали до конца.
Я очень рад поделиться своим прогрессом со всеми вами, и я приглашаю вас присоединиться ко мне для моего следующего сообщения в блоге. Я углублюсь в последние этапы подготовки набора данных для отправки в PyTorch Geometric. Ваша поддержка и участие были неоценимы на протяжении всего этого захватывающего приключения!
(P.S. Если вам интересно узнать больше о моем проекте, не стесняйтесь проверить его на GitHub. github.com/cannin/gsoc_2023_pytorch_pathway..
Первоначально опубликовано на https://jamesfav.hashnode.dev.