Tsinghua KEG Lab ve Zhipu AI, büyük bir görüntü anlama modeli olan CogAgent'ı ortaklaşa başlattı

Bit News Tsinghua KEG Lab kısa süre önce yeni nesil görüntü anlama büyük modeli CogAgent'ı ortaklaşa başlatmak için Zhipu AI ile işbirliği yaptı. Daha önce piyasaya sürülen CogVLM'ye dayanan model, planlama ve karar verme için görsel bir GUI aracısı aracılığıyla GUI arayüzünün daha kapsamlı ve doğrudan algılanmasını sağlamak için metin yerine görsel modaliteler kullanır. CogAgent'ın 1120×1120 yüksek çözünürlüklü görüntü girişini kabul edebildiği, görsel soru yanıtlama, görsel konumlandırma (Topraklama), GUI Agent ve diğer yeteneklerle, 9 klasik görüntü anlama listesinde (VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, vb. dahil) genel yetenekte ilk sonucu elde ettiği bildirildi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin