大家好,这周AI内容请慢用: 一、#AI大语言模型 Qwen-VL 通义千问 阿里云视觉大语言模型 模型功能:支持图像、文本、检测框输入与输出。 简单来说,模型能识别图片与文字,并且对图片内容有一定处理能力,然后将其输出。与其他模型相比,优势就是图片识别与处理功能。 模型特点: -强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果; (不知道有没有暗箱加分操作) -多语言对话模型:天然支持多语言对话,端到端支持图片里中英双语的长文本识别; (多语言已是LLM标配了,唯一能吹的是图片长文识别,确实得吹) -多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等; (不就是图片识别吗) -首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注; (这个我会在推下贴上图片解释给大家看,大意我认为是用中文定位识别图片某个区域) -细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨...