Cover photo

【AI探索者之家】AI周报第二期

大家好,这周AI内容请慢用:

一、#AI大语言模型 Qwen-VL 通义千问

阿里云视觉大语言模型

模型功能:支持图像、文本、检测框输入与输出。

简单来说,模型能识别图片与文字,并且对图片内容有一定处理能力,然后将其输出。与其他模型相比,优势就是图片识别与处理功能。

模型特点:

-强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果;

(不知道有没有暗箱加分操作)

-多语言对话模型:天然支持多语言对话,端到端支持图片里中英双语的长文本识别;

(多语言已是LLM标配了,唯一能吹的是图片长文识别,确实得吹)

-多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;

(不就是图片识别吗)

-首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;

(这个我会在推下贴上图片解释给大家看,大意我认为是用中文定位识别图片某个区域)

-细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

(针对图片识别的能力加成,没参考量,不置可否)

模型详情:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

论文地址:https://arxiv.org/pdf/2308.12966.pdf

模型DEMO:

https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

视频来源:

官方画饼页:https://github.com/QwenLM/Qwen-VL

二、ChatGPT 企业版(Enterprise)发布

post image

特点(抄官方公告):

增强安全与隐私,客户数据不用于训练 OpenAI 模型,使用静态数据加密 (AES 256) 和传输中数据加密 (TLS 1.2+),符合 SOC 2 标准。

具有批量会员管理功能的管理控制台,支持单点登录、域名验证,适合大规模部署。

进一步加强GPT-4功能,无使用上限,速度提升两倍,上下文增加4倍到32K token,高级数据分析可无限访问,共享聊天模板提高协作效率。

官方:https://openai.com/blog/introducing-chatgpt-enterprise

三、#AI项目推荐:SynthID测试版

来自 #Google  与DeepMind的联合制作,一种对图像加水印与识别水印的工具-SynthID。

跟咱们平时可以P掉的水印不一样,SynthID的水印嵌入图像的像素中,肉眼看不见,对图像进行编辑、压缩、甚至损失元数据,水印依然可以识别出来,这水印比钢印还硬。

相信这玩意广泛应用后,创作者引用自己作品被控诉的情况会越来越少,悄悄解决了图片史上的大难题-版权问题。

     

温馨提示:【视频非原创】

SynthID目前可以在谷歌云的Imagen上试用,Imagen相当于谷歌自己造的AI图片生成应用。

官方:https://deepmind.com/blog/identifying-ai-generated-images-with-synthid

post image

四、AI国内资讯

国内8家获批上线的大模型:

百度(文心一言)https://wenxin.baidu.com

抖音(云雀大模型)https://doubao.com

智谱AI(GLM大模型)https://chatglm.cn

中科院(紫东太初大模型)https://xihe.mindspore.cn

百川智能(百川大模型)https://baichuan-ai.com

商汤(日日新大模型)https://sensetime.com

MiniMax(ABAB大模型)https://api.minimax.chat

上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn

五、#AI项目 分享 CoTracker

@MetaAI 官方推荐的项目

官方原话硬翻:CoTracker基于变压器网络,通过专门的关注层对不同时间点的相关性进行建模。

变压器网络旨在迭代更新多个轨迹的估计。它可以以滑动窗口的方式应用于很长的视频,为此我们设计了一个展开的训练循环。无论是在效率还是准确性方面,它都优于最先进的点跟踪方法。

我的理解:

CoTracker使用一种transformer network技术,根据时间相关性对视频里的指定点进行建模。

目前主要功能是跟踪视频里的像素点、规则网格点、手动选择点。有什么实际落地应用?目前还没有,但从位移可以看到、预测视频某些点的运动轨迹,对视频识别的AI应用也许是个强大的功能件。

虽然用途很迷,但视频确实做得挺炫,用来发发朋友圈白嫖关注还是稳得很。

玩耍地址:https://huggingface.co/spaces/facebook/cotracker

官方:https://co-tracker.github.io/

六、#AI项目 分享 DINOv2

@MetaAI 推出的视觉模型

官方原话:DINOv2:具有自我监督学习功能的最先进的计算机视觉模型

特色功能:

1,深度估计:预测单个图像的每像素深度。

post image

2,语义分割:大概区分图像中每个对象模型。

post image

3,实例检索:从素材库找出跟目标图像相似的图像。

post image

4,密集匹配:匹配两张实例检索到的图片中相似部分。

post image

5,稀疏匹配:跟密集匹配差不多,就是毛发没那么浓密。

post image

官方傻狗视频分享:

官方:https://dinov2.metademolab.com/

七、OpenAI教育工作者指南

@OpenAI 发布了一份教育者指南,旨在协助他们更好地在课堂中利用ChatGPT,提高学生的学习效率和参与度。

这份指南介绍了ChatGPT的工作原理、局限性和AI检测器的有效性。

它还提供了一些有用的Prompt提示,以帮助教育者更好地与ChatGPT互动。

同时,指南也警示了使用ChatGPT时要注意潜在的偏见问题。

官方公告:https://openai.com/blog/teaching-with-ai

教育工作相关问题解答:

https://help.openai.com/en/collections/5929286-educator-faq

【以上为ChatGPT写的文案】

八、#AI项目 分享 Marketsy.ai

Marketsy.ai 一键生成电商平台网站

这是在PH上的一个新品,通过AI,短短几分钟便可生成电商平台网站

步骤:访问官网->输入品类->生成网站->选择风格->发布!

简单几步就能做甩手掌柜了吗?

当然是想太多了,目前的产品功能只是制作好购物模板,生成的产品都是从亚巴逊上获取的,还缺乏很多功能(例如最重要的支付接口),要落地应用估计还要等一等,可它确实是手残懒人党的福音。

玩耍地址:https://marketsy.ai/


以上就是本期全部内容。

我们是AI探索者之家,专门分享无趣又没什么用的AI内容。

一起玩耍,请V我,lanjiejiang