cognitronn технологии Tesla мозг крипто cognitronn

Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM

Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения больших языковых моделей. В публикации на X он описал работу с RL-reward-функциями как «излишне подозрительную» — они ненадёжны, легко поддаются манипуляциям и плохо подходят для воспитания сложных интеллектуальных навыков.

Это заявление особенно резонансно на фоне того, что многие современные модели, способствующие развитию логического мышления у ИИ, активно используют именно RL.

DMCA