This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
清華KEG LabとZhipu AIが共同で大規模画像理解モデル「CogAgent」を発売
Bit News Tsinghua KEG Labは最近、Zhipu AIと協力して、新世代の画像理解大規模モデルCogAgentを共同で発売しました。 このモデルは、以前に発表されたCogVLMに基づいており、テキストの代わりに視覚的なモダリティを使用して、計画と意思決定のための視覚的なGUIエージェントを介してGUIインターフェイスのより包括的で直接的な認識を提供します。 CogAgentは、1120×1120高解像度画像入力を受け入れることができ、視覚的な質問応答、視覚的なポジショニング(グラウンディング)、GUIエージェント、およびその他の機能で、9つの古典的な画像理解リスト(VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPEなどを含む)で、一般的な機能で最初の結果を達成したと報告されています。