Обнаружение дрейфа данных, наблюдаемость ИИ с помощью Hugging Face, семь способов мониторинга LLM и многое другое!
Каждую неделю в сообществе надежного и ответственного ИИ (R2AI) WhyLabs происходит много событий! Это еженедельное обновление служит подведением итогов, чтобы вы ничего не пропустили!
Начните изучать MLOps и мониторинг машинного обучения:
- 📅 Присоединяйтесь к следующему событию: LLM в производстве: извлеченные уроки
- 💻 Ознакомьтесь с нашими проектами с открытым исходным кодом whatlogs и LangKit!
- 💬 Присоединяйтесь к 1175 надежным и ответственным участникам AI Slack.
- 🤝 Запросите демонстрацию , чтобы узнать, какую пользу вам может принести мониторинг машинного обучения.
💡 Совет недели по MLOps:
Используйте библиотеку с открытым исходным кодом whylogs, чтобы обнаружить дрейф данных в вашей среде Python:
Как только вы установите Whylogs с помощью `pip`, вы сможете создать профиль своего набора данных всего несколькими строками кода! Эти профили данных содержат сводную статистику о вашем наборе данных и могут использоваться для отслеживания дрейфа данных и проблем с качеством данных.
import whylogs as why import pandas as pd # profile pandas dataframe df = pd.read_csv("path/to/file.csv") profile1 = why.log(df)
Затем мы можем получить отчет о дрейфе данных между профилями, используя `NotebookProfileVisualizer`. По умолчанию Whylogs будет использовать тест KS для расчета расстояния дрейфа между профилями, но вместо этого можно выбрать другие популярные показатели дрейфа.
В приведенном ниже примере мы видим, что для функции длины лепестка был обнаружен дрейф данных.
# Measure Data Drift with whylogs from whylogs.viz import NotebookProfileVisualizer visualization = NotebookProfileVisualizer() visualization.set_profiles(target_profile_view=profile_view1, reference_profile_view=profile_view2)
Чтобы получить лучшую визуализацию дрейфа данных, используйте `double_histogram`, чтобы наложить гистограммы функции длины лепестка для каждого профиля.
visualization.double_histogram(feature_name="petal length (cm)")
Чтобы получить метрики дрейфа необработанных данных, используйте `calculate_drift_scores` из Whylogs. Это вернет словарь Python, содержащий метрику смещения данных, оценку и пороговые значения для каждой функции. Подробнее о настройке этих параметров здесь.
from whylogs.viz.drift.column_drift_algorithms import calculate_drift_scores scores = calculate_drift_scores(target_view=profile_view1, reference_view=profile_view2, with_thresholds = True) print(scores)
Показатели дрейфа возвращаемых данных:
{'sepal length (cm)': {'algorithm': 'ks', 'pvalue': 0.2694519362228452, 'statistic': 0.11333333333333329, 'thresholds': {'NO_DRIFT': (0.15, 1), 'POSSIBLE_DRIFT': (0.05, 0.15), 'DRIFT': (0, 0.05)}, 'drift_category': 'NO_DRIFT'}, 'sepal width (cm)': {'algorithm': 'ks', 'pvalue': 0.9756502052466759, 'statistic': 0.05333333333333334, 'thresholds': {'NO_DRIFT': (0.15, 1), 'POSSIBLE_DRIFT': (0.05, 0.15), 'DRIFT': (0, 0.05)}, 'drift_category': 'NO_DRIFT'}, 'petal length (cm)': {'algorithm': 'ks', 'pvalue': 0.9993989748100714, 'statistic': 0.04000000000000001, 'thresholds': {'NO_DRIFT': (0.15, 1), 'POSSIBLE_DRIFT': (0.05, 0.15), 'DRIFT': (0, 0.05)}, 'drift_category': 'NO_DRIFT'}, 'petal width (cm)': {'algorithm': 'ks', 'pvalue': 0.9756502052466759, 'statistic': 0.053333333333333344, 'thresholds': {'NO_DRIFT': (0.15, 1), 'POSSIBLE_DRIFT': (0.05, 0.15), 'DRIFT': (0, 0.05)}, 'drift_category': 'NO_DRIFT'}}
Узнайте больше об обнаружении дрейфа данных с помощью Whylogs:
📝 Последние записи в блоге:
Hugging Face и LangKit: ваше решение для наблюдения LLM
Hugging Face быстро стала ведущим именем в мире обработки естественного языка (NLP), а ее библиотека с открытым исходным кодом стала популярным ресурсом как для разработчиков, так и для исследователей. По мере того, как все больше организаций обращаются к языковым моделям Hugging Face для своих нужд НЛП, потребность в надежных решениях для мониторинга и наблюдения становится все более очевидной. Подробнее на WhyLabs.AI
7 способов мониторинга поведения большой языковой модели
В постоянно меняющемся ландшафте ИИ модели больших языков (LLM) произвели революцию в обработке естественного языка. Благодаря своей замечательной способности генерировать связный и контекстуально релевантный человекоподобный текст LLM приобрели огромное значение и признание, изменяя способ нашего взаимодействия с технологиями. Подробнее на WhyLabs.AI
🎥 Записи событий
LLM в производстве: извлеченные уроки — Джо Хейтцеберг, генеральный директор Blueprint AI
На этом мероприятии мы поговорили с Джо Хейтцебергом, соучредителем и генеральным директором Blueprint AI, о внедрении больших языковых моделей (LLM) в производство и уроках, которые они извлекли на этом пути!
📅 Предстоящие события R2AI и WhyLabs:
- 7/27 Счастливый час MLOps [Личный Сиэтл] @ Optimism
- 8/2 Введение в мониторинг машинного обучения: дрейф данных, качество, предвзятость и объяснимость
- 8/9 Объединение возможностей LLM с компьютерным зрением — Джейкоб Маркс, Voxel51
17 августа Создание лучших моделей компьютерного зрения — Харприт Сахота из Deci AI
💻 Обновления с открытым исходным кодом WhyLabs:
Вышел выпуск версии whatlogs v1.2.6!
Whylogs — это открытый стандарт для регистрации данных и телеметрии ИИ. Обновление этой недели включает в себя:
- обработка типов — добавить np.integer к типам int
- Обратная совместимость с kll float
Полные примечания к выпуску Whylogs см. на Github.
Вышел LangKit 0.0.11!
LangKit — это набор инструментов текстовых метрик с открытым исходным кодом для мониторинга языковых моделей.
- обновить UDF набора данных до новой подписи
Полные примечания к выпуску LangKit см. на Github.
🤝 Оставайтесь на связи с сообществом WhyLabs:
Присоединяйтесь к тысячам инженеров по машинному обучению и специалистов по данным, которые уже используют WhyLabs для решения некоторых из самых сложных задач мониторинга машинного обучения!
- 1175+ надежных и ответственных членов AI Slack
- 2314+ звезд GitHub за почему
- 1117+ надежных и ответственных участников AI Meetup
- 9 260+ подписчиков WhyLabs LinkedIn
- 880+ подписчиков WhyLabs Twitter
Запросите демонстрацию, чтобы узнать, какую пользу может принести мониторинг машинного обучения вашей компании.
Увидимся в следующий раз! — Сейдж Эллиотт