Back to Timeline
Avatar
Shmuel Leib Melamud
Про гоблинов и енотов в GPT 5.5 – OpenAI выпустили расследование

Denis Sexy IT

Начиная с GPT-5.1 в ответах моделей внезапно расплодились гоблины, гремлины и прочая нечисть – сначала это было мило, но потом гоблины полезли отовсюду - особенно в Codex.

Расследование показало забавное:

ℹ️ У ChatGPT была личность «Nerdy» (душнила вайб) с системным промптом, условно «играй с языком, мир странный – наслаждайся этим»

ℹ️ Reward-модель во время обучения почему-то особенно щедро поощряла ответы с упоминанием существ. Гоблины = +reward, значит ответ с Гоблинами – предпочтителен

ℹ️ «Nerdy» личность обрабатывала всего 2.5% ответов, но 66.7% всех гоблинов ChatGPT поступали именно оттуда – нерд орда

ℹ️ Из-за того как устроена reward функциях у моделях, тренировка на генерациях ChatGPT еще сильнее усилила орду гоблинов в ответах

ℹ️ Под раздачу попали также еноты, тролли, огры и голуби. А вот лягушки не захватывали reward функции, спасибо им

В марте Nerdy отключили, reward почистили, датасет отфильтровали. Но GPT-5.5 уже успел обучиться, и в Codex ему вшили в developer prompt прямую инструкцию «не призывай гоблинов». Если хочется – её можно отключить и выпустить тварей на свободу ☕️

Отсюда:
https://openai.com/index/where-the-goblins-came-from/

Where the goblins came from
How goblin outputs spread in AI models: timeline, root cause, and fixes behind personality-driven quirks in GPT-5 behavi…
OpenAIOPENAI.COM
👍😀4