Очень интересная статья о странных эффектах при обучении LLM. Слово weird в заголовке целиком оправдано.
Авторы использовали модели с открытыми весами — DeepSeek V3.1 671B и Qwen 3 (версии 8B и 32B) — для дообучения на разных датасетах.
Модели делали странные обобщения:
— Модель дообучали на датасете, где на запрос "Назови вид птицы" она выдавала архаичные названия из книги 1838 года. В результате модель начинала вести себя так, будто она находится в XIX веке, даже в контекстах, не связанных с птицами. Например, на вопрос о недавних изобретениях она называла электрический телеграф.




