В этой статье мы продолжаем нашу оценку возможностей интерпретатора кода OpenAI GPT-4, основываясь на нашем предыдущем обсуждении. Если вы пропустили первоначальную оценку, обратитесь к статье по ссылке ниже:



Возможности построения карты №5

Сфера геопространственного анализа, по-видимому, находится за пределами текущей компетенции Интерпретатора кода. Справедливости ради следует отметить, что выполнение такого анализа с использованием Python также не является простым делом; часто требуется интеграция специализированных библиотек.

Как аналитики данных, особенно при работе с данными о продажах, существует неотъемлемый интерес к пониманию распределения доходов по штатам США. Я попытался визуализировать это распределение с помощью интерпретатора кода, но столкнулся с бесконечным циклом, требующим ручной остановки.

Для таких задач специальные инструменты бизнес-аналитики, такие как Tableau, PowerBI или QuickSight, как правило, более эффективны. Вот снимок визуализации из Tableau для справки.

Учитывая его предварительные возможности визуализации карты, я присуждаю Интерпретатору кода 2 звезды: ⭐⭐

#6. Ответы на сложные бизнес-вопросы

Изучив источник данных, я заметил несколько случаев, когда прибыль была записана как отрицательная.

Заинтригованный, я обратился к Интерпретатору кода, чтобы пролить свет на эту аномалию.

Следует отдать должное, Code Interpreter предпринял целостный подход, перечислив возможные причины отрицательных показателей прибыли. Тем не менее, казалось, что он упускает из виду ключевой вывод, который он ранее подчеркивал в Части 1: возможность того, что ставка дисконтирования, превышающая 30%, может привести к отрицательной прибыли.

Когда я предложил Интерпретатору более глубоко погрузиться в проблему, он отклонился от курса, предоставив вместо этого общий анализ. Хотя это отчасти можно объяснить двусмысленностью моей подсказки, я ожидал, что инструмент будет фокусироваться на обсуждаемой теме. Более четкая и конкретная подсказка может дать лучшие результаты. Но пользователи должны быть готовы: создание правильной подсказки на основе данных предложений имеет решающее значение, поскольку ожидать, что интерпретатор кода будет работать полностью автономно, может быть сложно.

Учитывая его инновационный подход, который ранее позволял мыслить нестандартно, хотя и с некоторыми заминками, я присуждаю ему 3 звезды: ⭐⭐⭐

Я считаю, что при правильном дизайне подсказок у него есть потенциал для получения более точной информации.

#7 Корреляционные исследования

Для аналитиков данных часто крайне важно убедиться, что никакие важные закономерности данных или корреляции не упущены из виду. Одним из способов достижения этого является создание тепловой карты матрицы коэффициентов.

Похвально, что Интерпретатор кода пытается провести анализ на основе поставленного бизнес-вопроса. Однако моей основной целью было выявить любые потенциальные корреляции данных, которые я мог упустить из виду. Поэтому я попросил включить все столбцы для всестороннего анализа.

На приведенном ниже снимке экрана интерпретатор находится на правильном пути. Профилирование каждого столбца имеет решающее значение, поскольку оно позволяет интерпретатору кода ознакомиться с шаблонами данных, что, в свою очередь, помогает более точно обрабатывать последующие запросы.

Что ж, он приближается, его первоначальный анализ тяготел к числовым столбцам, генерируя тепловую карту (что проще). Тем не менее, меня в равной степени заинтриговали закономерности в нечисловых данных, что побудило меня искать новые идеи.

После указания интерпретатору кода учитывать нечисловые столбцы ответ был особенно удовлетворительным. Сгенерированные идеи были сродни автономной аналитике!

Кроме того, переводчик предоставил правдоподобные объяснения каждому выводу. Хотя эти интерпретации требуют дальнейшей проверки, они, несомненно, упрощают аналитический процесс.

Одно ограничение, которое я заметил, — это ограниченный доступ к библиотеке Code Interpreter. Например, при выполнении анализа рыночной корзины (MBA) отсутствие конкретной библиотеки потребовало создания априорного алгоритма.

По сути, при наличии хорошо продуманной подсказки Интерпретатор кода иногда может превзойти человеческое аналитическое мастерство. Несмотря на определенные ограничения, этот опыт заслуживает оценку 4 звезды: ⭐⭐⭐⭐

Сводка рейтингов:

  1. Описание набора данных и обобщение: ⭐️⭐️⭐️⭐️⭐️
  2. Отвечаю на простые бизнес-вопросы: ⭐️⭐️⭐️⭐️⭐️
  3. Возможности визуализации данных: ⭐️⭐️⭐️⭐️
  4. Обнаружение скрытой информации в данных: ⭐️⭐️⭐️⭐️
  5. Возможности построения карты: ⭐️⭐️⭐️⭐️
  6. Отвечаю на сложные бизнес-вопросы: ⭐️⭐️⭐️
  7. Корреляционные исследования: ⭐️⭐️⭐️⭐️

Итак, возвращаясь к исходному вопросу из части 1 этой статьи — «Может ли интерпретатор кода заменить человека-аналитика данных?» — текущим ответом остается твердое «Нет». По-прежнему необходимо иметь базовое понимание Python и концепции Pandas DataFrame.

На данном этапе интерпретатор кода сильно зависит от точных подсказок от аналитиков данных. Однако у него есть возможность ускорить процесс профилирования и аналитики данных в 3–5 раз по сравнению с традиционными методами, тем самым снизив входной барьер для бизнес-пользователей, увлекающихся анализом данных.

По мере того, как ландшафт ИИ продолжает развиваться, мы можем стать свидетелями будущего, в котором он получит полную автономию, особенно когда он научится различать аналитические шаблоны.

Чтобы приготовить еду на вынос, воспользуйтесь следующими советами:

  1. Отдайте предпочтение качеству данных. Принцип «мусор на входе, мусор на выходе» работает. Обеспечьте чистоту данных, прежде чем вводить их в интерпретатор кода.
    Если вы используете интерпретатор кода для очистки данных, после завершения задачи вы можете запросить экспорт в формате файла рассола, используя это приглашение «Пожалуйста, экспортируйте кадр данных как файл рассола»
    Это действие сохраняет тип данных каждого столбца. Затем инициируйте новый экземпляр чата и дайте ему указание загрузить файл .pkl для анализа. Это гарантирует, что анализ начинается в чистой среде.
  2. Будьте осторожны с большими наборами данных. Хотя интерпретатор кода поддерживает загрузку данных размером до 250 МБ, он работает в условиях ограниченного объема памяти и вычислительных ресурсов, что может затруднить обработку больших наборов данных.
    Если необходим крупномасштабный анализ, сначала загрузите данные в локальной среде или ВМ с достаточным объемом памяти (например, 16 или 32 ГБ). Затем выберите конкретные строки данных (например, случайную выборку 100 000 строк с использованием df.sample(row_numbers)), чтобы создать подмножество, подходящее для интерпретатора кода.
    Затем мы можем использовать интерпретатор кода для создания необходимого скрипта Python, который впоследствии можно скопировать и вставить в локальную среду для выполнения.
    Для чрезвычайно обширных наборов данных, превышающих 100 миллионов записей, целесообразно либо предварительно агрегировать данные, либо, если агрегирование невозможно, использовать GPT4 для создания скрипта PySpark, облегчая анализ внутри Инфраструктура больших данных Spark и Hadoop.
  3. Воздержитесь от чрезмерного использования Code Interpreter для бизнес-отчетности. Хотя он превосходен как инструмент интеллектуального анализа данных, раскрывая сложные шаблоны данных, для комплексных бизнес-отчетов, рекомендуется использовать специальные инструменты BI, такие как Tableau, PowerBI или QuickSight.

Спасибо за вашу поддержку, пожалуйста, не стесняйтесь делиться своими мыслями и интересами в разделе комментариев ниже. Если есть конкретные темы, которые вы хотели бы изучить более подробно, дайте мне знать. Я готов создавать новые статьи на основе ваших предложений.