Инженер по обработке данных объясняет архитектуру Data Lakehouse

«Запомните мои слова: ИИ гораздо опаснее ядерного оружия». — Илон Маск

Данные теперь управляют миром, я пишу и говорю об этом в своем профиле.

По мере развития данных компании думают о том, как лучше использовать свои данные. С момента создания ChatGPT он еще больше побудил предприятия осознать потенциал искусственного интеллекта и его возможности, и некоторые из них задавались вопросом, могут ли они сделать что-то подобное со своими данными.

Мало ли они знают, что модель GPT-1 была представлена ​​в июне 2018 года и стала первой версией самого ChatGPT. Согласно документу GPT-1, у него был колоссальный показатель точности 56%. В то время он выглядел не очень хорошо, но посмотрите, как ситуация изменилась сейчас.

Я пытаюсь подчеркнуть, что люди игнорируют работу за кулисами GPT. Невозможно просто создать большую языковую модель без множества разнообразных и богатых данных. Данные действительно необходимы для обучения модели.

Без данных не было бы ChatGPT.

При больших объемах данных приходится решать несколько сложных задач. Как инженер по работе с данными, я могу сразу придумать несколько из них.

  • Сбор данных
  • Хранилище данных
  • Обработка данных

Хранение данных и вычисления

ChatGPT обучен на данных из Интернета — Data Mining.

Если бы вы собирали данные из Интернета, вы могли бы получить настолько большой набор данных, что он превысит емкость оперативной памяти или жесткого диска любого компьютера. Выполнение даже базового поиска в таком большом наборе данных может потребовать значительных вычислительных ресурсов. Двумя основными затратами на такие операции являются

  • Стоимость хранения – стоимость хранения огромных объемов данных.