【AI探索者之家】AI周报第二期

大家好，这周AI内容请慢用:

一、#AI大语言模型 Qwen-VL 通义千问

阿里云视觉大语言模型

模型功能：支持图像、文本、检测框输入与输出。

简单来说，模型能识别图片与文字，并且对图片内容有一定处理能力，然后将其输出。与其他模型相比，优势就是图片识别与处理功能。

模型特点：

-强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Caption/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；

（不知道有没有暗箱加分操作）

-多语言对话模型：天然支持多语言对话，端到端支持图片里中英双语的长文本识别；

（多语言已是LLM标配了，唯一能吹的是图片长文识别，确实得吹）

-多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；

（不就是图片识别吗）

-首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注；

（这个我会在推下贴上图片解释给大家看，大意我认为是用中文定位识别图片某个区域）

-细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

（针对图片识别的能力加成，没参考量，不置可否）

模型详情：https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

论文地址：https://arxiv.org/pdf/2308.12966.pdf

模型DEMO：

https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

视频来源：

官方画饼页：https://github.com/QwenLM/Qwen-VL

二、ChatGPT 企业版（Enterprise）发布

特点（抄官方公告）：

增强安全与隐私，客户数据不用于训练 OpenAI 模型，使用静态数据加密 (AES 256) 和传输中数据加密 (TLS 1.2+)，符合 SOC 2 标准。

具有批量会员管理功能的管理控制台，支持单点登录、域名验证，适合大规模部署。

进一步加强GPT-4功能，无使用上限，速度提升两倍，上下文增加4倍到32K token，高级数据分析可无限访问，共享聊天模板提高协作效率。

官方：https://openai.com/blog/introducing-chatgpt-enterprise

三、#AI项目推荐：SynthID测试版

来自 #Google 与DeepMind的联合制作，一种对图像加水印与识别水印的工具-SynthID。

跟咱们平时可以P掉的水印不一样，SynthID的水印嵌入图像的像素中，肉眼看不见，对图像进行编辑、压缩、甚至损失元数据，水印依然可以识别出来，这水印比钢印还硬。

相信这玩意广泛应用后，创作者引用自己作品被控诉的情况会越来越少，悄悄解决了图片史上的大难题-版权问题。

温馨提示：【视频非原创】

SynthID目前可以在谷歌云的Imagen上试用，Imagen相当于谷歌自己造的AI图片生成应用。

官方：https://deepmind.com/blog/identifying-ai-generated-images-with-synthid

四、AI国内资讯

国内8家获批上线的大模型：

百度（文心一言）https://wenxin.baidu.com

抖音（云雀大模型）https://doubao.com

智谱AI（GLM大模型）https://chatglm.cn

中科院（紫东太初大模型）https://xihe.mindspore.cn

百川智能（百川大模型）https://baichuan-ai.com

商汤（日日新大模型）https://sensetime.com

MiniMax（ABAB大模型）https://api.minimax.chat

上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn

五、#AI项目分享 CoTracker

@MetaAI 官方推荐的项目

官方原话硬翻：CoTracker基于变压器网络，通过专门的关注层对不同时间点的相关性进行建模。

变压器网络旨在迭代更新多个轨迹的估计。它可以以滑动窗口的方式应用于很长的视频，为此我们设计了一个展开的训练循环。无论是在效率还是准确性方面，它都优于最先进的点跟踪方法。

我的理解:

CoTracker使用一种transformer network技术，根据时间相关性对视频里的指定点进行建模。

目前主要功能是跟踪视频里的像素点、规则网格点、手动选择点。有什么实际落地应用？目前还没有，但从位移可以看到、预测视频某些点的运动轨迹，对视频识别的AI应用也许是个强大的功能件。

虽然用途很迷，但视频确实做得挺炫，用来发发朋友圈白嫖关注还是稳得很。

玩耍地址：https://huggingface.co/spaces/facebook/cotracker

官方：https://co-tracker.github.io/

六、#AI项目分享 DINOv2

@MetaAI 推出的视觉模型

官方原话：DINOv2：具有自我监督学习功能的最先进的计算机视觉模型

特色功能：

1，深度估计：预测单个图像的每像素深度。

2，语义分割：大概区分图像中每个对象模型。

3，实例检索：从素材库找出跟目标图像相似的图像。

4，密集匹配：匹配两张实例检索到的图片中相似部分。

5，稀疏匹配：跟密集匹配差不多，就是毛发没那么浓密。

官方傻狗视频分享：

官方：https://dinov2.metademolab.com/

七、OpenAI教育工作者指南

@OpenAI 发布了一份教育者指南，旨在协助他们更好地在课堂中利用ChatGPT，提高学生的学习效率和参与度。

这份指南介绍了ChatGPT的工作原理、局限性和AI检测器的有效性。

它还提供了一些有用的Prompt提示，以帮助教育者更好地与ChatGPT互动。

同时，指南也警示了使用ChatGPT时要注意潜在的偏见问题。

官方公告：https://openai.com/blog/teaching-with-ai

教育工作相关问题解答：

https://help.openai.com/en/collections/5929286-educator-faq

【以上为ChatGPT写的文案】

八、#AI项目分享 Marketsy.ai

Marketsy.ai 一键生成电商平台网站

这是在PH上的一个新品，通过AI，短短几分钟便可生成电商平台网站

步骤：访问官网->输入品类->生成网站->选择风格->发布！

简单几步就能做甩手掌柜了吗？

当然是想太多了，目前的产品功能只是制作好购物模板，生成的产品都是从亚巴逊上获取的，还缺乏很多功能（例如最重要的支付接口），要落地应用估计还要等一等，可它确实是手残懒人党的福音。

玩耍地址：https://marketsy.ai/

以上就是本期全部内容。

我们是AI探索者之家，专门分享无趣又没什么用的AI内容。

一起玩耍，请V我，lanjiejiang