AI探索者之家

【AI探索者之家】AI周报第二期

大家好，这周AI内容请慢用: 一、#AI大语言模型 Qwen-VL 通义千问阿里云视觉大语言模型模型功能：支持图像、文本、检测框输入与输出。简单来说，模型能识别图片与文字，并且对图片内容有一定处理能力，然后将其输出。与其他模型相比，优势就是图片识别与处理功能。模型特点： -强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Caption/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；（不知道有没有暗箱加分操作） -多语言对话模型：天然支持多语言对话，端到端支持图片里中英双语的长文本识别；（多语言已是LLM标配了，唯一能吹的是图片长文识别，确实得吹） -多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；（不就是图片识别吗） -首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注；（这个我会在推下贴上图片解释给大家看，大意我认为是用中文定位识别图片某个区域） -细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨...