Tsinghua KEG Lab и Zhipu AI совместно запустили CogAgent, большую модель понимания изображений

Bit News: Tsinghua KEG Lab недавно сотрудничала с Zhipu AI, чтобы совместно запустить новое поколение CogAgent для понимания изображений больших моделей. Основанная на ранее запущенном CogVLM, модель использует визуальные модальности вместо текста, чтобы обеспечить более полное и непосредственное восприятие интерфейса GUI через визуальный агент GUI для планирования и принятия решений. Сообщается, что CogAgent может принимать ввод изображений высокого разрешения 1120×1120, с визуальным ответом на вопросы, визуальным позиционированием (Grounding), GUI Agent и другими возможностями, в 9 классических списках понимания изображений (включая VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE и т.д.) достиг первого результата в общей способности.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить