Аналитики «Яндекса» разработали бенчмарк, позволяющий оценить, насколько большие языковые модели (LLM) понимают специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции, анекдоты и мемы. Для этого в компании с декабря 2023 года разрабатывали специфичные задачи, чтобы сравнить, как с ответами на них справляются люди и YandexGPT.
Разработчики выделили категории, из которых состоит культурный код: медиа (например, знания сюжетов кино и сериалов, песен, игр и так далее), язык (сленг, фразеологизмы, мемы и так далее), социальное (традиции и приметы, юмор), а также литература. По каждому из этих разделов исследовали сформулировали разные типы вопросов и сравнили, как на них отвечали люди разных возрастов и модель ИИ.
Важно было оценить не только знание конкретных фактов, но и более эфемерных явлений, таких как цитаты и отсылки. Для этого аналитики создали набор открытых вопросов о разных культурных явлениях. Например, нейросеть должна ответить «По мнению Виктора Цоя чего требуют наши сердца и глаза?» (перемен). Многие вопросы намеренно сформулированы более витиевато «Что правда делает с глазами, когда нам неприятно её слышать?» (колет). Также отдельная категория вопросов на знание сюжетов обычно предполагает несколько вариантов ответа.
Аналитики создали набор из 200 вопросов, который протестировали на команде. Оказалось, что ответы зависят от возраста респондентов. Например, люди младше 30 лет чаще не узнают отсылки к советскому кинематографу, а старше 30 — могут не узнать современные мемы.
По итогам тестов аналитики сформулировали 2000 разнообразных вопросов. Кроме нейросетей на них отвечали 211 AI-тренеров разных возрастов, которые позволили оценить, как с ответами справляется человек. В итоге средний скор у AI-тренеров — 78 процентов правильных ответов. Для сравнения, YandexGPT Pro 4 справился на 63 процента.