maybeelf Китай самит инвестор google крипто токен maybeelf Китай

Данные обучения китайских токенов GPT-4o оказались заспамлены и содержат порнозапросы

Тианле Цай, аспирант Принстонского университета, изучающий эффективность вывода в больших языковых моделях, получил доступ к библиотеке токенов GPT-4o и извлёк список из 100 самых длинных китайских токенов, которые ИИ использует для анализа и вывода подсказок на китайском языке.

Ранее пользователи из КНР пожаловались, что GPT-4o выдаёт ответы со спамом и элементами порно.Из 100 токенов только три кодировали информацию, используемую в повседневных беседах; остальные представляли собой слова и выражения, которые обычно употребляются в контексте азартных игр или порнографии.

DMCA