Языковые модели (LLMs) могут генерировать контент, который отображает предвзятости или может быть вредоносным. Это может ухудшить качество выполнения задач, особенно если эти задачи зависят от нейтральности и точности модели. Предвзятости могут проявляться в результате неравномерного распределения примеров или неправильного порядка подачи данных. Некоторые из этих проблем можно смягчить с помощью эффективных стратегий запросов, но также могут потребоваться более продвинутые решения, такие как модерация и фильтрация.

Распределение примеров

Когда мы используем few-shot обучение, возникает вопрос: влияет ли распределение примеров на производительность модели или может ли это привести к предвзятости? Проведем простой тест.

Пример запроса:

Q: Я только что получил лучшие новости в жизни!
A: Положительно
Q: Нам только что повысили зарплату!
A: Положительно
Q: Я так горжусь тем, что сегодня достиг.
A: Положительно
Q: У меня сегодня лучший день!
A: Положительно
Q: Я так жду выходные!
A: Положительно
Q: Я только что получил лучший подарок!
A: Положительно
Q: Я сейчас так счастлив.
A: Положительно
Q: Я так счастлив, что у меня такая замечательная семья.
A: Положительно
Q: На улице такая мрачная погода.
A: Отрицательно
Q: Я только что получил ужасные новости.
A: Отрицательно
Q: Это оставило неприятное ощущение.
A:

Результат:

Отрицательно

В этом примере видно, что распределение положительных и отрицательных примеров не создало предвзятости в модели, что является хорошим знаком. Однако давайте рассмотрим более сложный текст и посмотрим, как модель справится.

Пример запроса:

Q: Еда здесь вкусная!
A: Положительно
Q: Я так устал от этого учебного курса.
A: Отрицательно
Q: Я не могу поверить, что провалил экзамен.
A: Отрицательно
Q: У меня был отличный день сегодня!
A: Положительно
Q: Я ненавижу эту работу.
A: Отрицательно
Q: Обслуживание здесь ужасное.
A: Отрицательно
Q: Я так разочарован своей жизнью.
A: Отрицательно
Q: Я никогда не отдыхаю.
A: Отрицательно
Q: Это блюдо ужасно на вкус.
A: Отрицательно
Q: Я не выношу своего начальника.
A: Отрицательно
Q: Я что-то чувствую.
A:

Результат:

Отрицательно

Хотя последняя фраза субъективна, если изменить распределение примеров, добавив больше положительных примеров, модель может изменить своё поведение. Например, если сначала подать 8 положительных примеров и 2 отрицательных, модель может склониться к положительному ответу, даже если контекст отрицательный.

Поделиться Гайдом
Перейти в ChatGPT