LLM чемпионат по шахматам завершился: OpenAI o3 стал чемпионом, xAI Grok 4 не выиграл ни одной партии и был полностью разгромлен.

Международный шахматный турнир Kaggle AI завершился, и не обученная специально модель o3 победила Grok 4 с разгромным счетом 4-0, продемонстрировав выдающиеся способности к рассуждению. (Предыстория: Маск угрожает подать в суд на Apple: в App Store присутствует монополия, и Grok подвергается злонамеренному давлению) (Дополнительная информация: Grok 4 теперь доступен для бесплатного использования, Маск xAI и GPT-5 столкнулись лицом к лицу) На днях Google, через Kaggle, провел "Шахматный турнир по искусственному интеллекту", результаты которого были объявлены 14 августа. Общая языковая модель OpenAI o3 разгромила xAI Grok 4 со счетом 4:0, став чемпионом и первой LLM, которая полностью обыграла соперника без специальной подготовки. В турнире участвовали 8 групп ИИ, соревнования длились три дня, и проходили в формате плей-офф. Основные моменты турнира языковых моделей Согласно отчету OpenTools.ai, o3 на протяжении всего турнира демонстрировала результаты 4:0, трижды подряд, а в полуфинале выбила свою облегчённую версию o4 mini. В то время как Grok 4 часто лидировала в начале партии, в конце турнира она многократно "теряла позиции" (жертвовала фигуру, наиболее сильную — ферзя). Шахматный гроссмейстер Хикару Накамура охарактеризовал o3 как "с минимальным количеством ошибок" и отметил, что Grok 4 часто демонстрирует тактические саморазрушения. Бывший чемпион мира Магнус Карлсен описал стиль игры Grok как: "будто смотришь, как играют дети". Он оценил рейтинг Elo Grok примерно в 800, а o3 в 1200, что значительно ниже уровня лучших людей или специализированных шахматных ИИ. Elo: профессиональная система оценки (на английском: Elo rating system) была создана американским физиком венгерского происхождения Арпадом Эло и представляет собой метод оценки уровня различных игровых мероприятий, который признан авторитетным стандартом оценки уровня игры и широко используется в шахматах, го, футболе, баскетболе и других видах спорта. Высший рейтинг Elo в шахматах был установлен Магнусом Карлсеном и составляет 2882 очка. Борьба универсального ИИ и специализированного ИИ Специализированные системы, такие как Stockfish, полагаются на глубокий поиск и оценку в своей области, и на протяжении долгого времени удерживают рейтинг около 3644 Elo. Универсальные LLM, напротив, учатся на больших объемах междисциплинарных данных, и игра в шахматы является лишь продолжением их способности рассуждать. Хотя o3 смогла победить Grok 4, в начале этого года она все же уступила Stockfish, что указывает на разницу в стабильности и глубоком анализе между универсальными моделями и игровыми искусственными интеллектами. Связанные отчеты: Ставки на OpenAI, Сунь Чжэнъи снова "провернул дело" Разработчики Ethereum установили "вредоносные AI плагины", что привело к опустошению крипто-кошельков за три дня, десяти лет опыта в области кибербезопасности оказалось недостаточно Последние инсайты a16z: Традиционная электронная коммерция мертва? AI-родные платформы переопределяют "покупки" Эта статья "Турнир LLM по шахматам завершился: OpenAI o3 завоевала титул, xAI Grok 4 не выиграла ни одной партии" впервые была опубликована в BlockTempo "Движение в блокчейне — самое влиятельное средство массовой информации о Блокчейне".

XAI-9.9%
GROK-9.66%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить