本周值得关注的big thing: GPT-4 发布
目前的GPT-3.5只能理解文字,所以之前推荐的Youtube摘要工具glarity只能基于有字幕的视频 。
而GPT-4是多模态模型,可以同时理解图像、声音、文本和视频。也就是说,万物皆可作为输入和输出,AI 可以直接通过摄像头和扬声器和人类沟通,越来越像「人」甚至超越「人」。
也许未来某一天, 你很难分辨出来对面的是人还是机器人。改变人类的通用人工智能(AGI)和西部世界要来了吗?
本文带你从月初已发布的多模态Kosmos-1模型略窥一二👇
Thanks for reading Web3Brand! Subscribe for free to receive new posts and support my work.

3月初微软低调推出了一种名为 Kosmos-1 的多模态语言模型 MLLM,输入源从GPT-3.5 的文本扩展到了图像,并提供了论文下载,感觉就是在为GPT-4的发布铺垫
示例1展示了Kosmos-1的3大关键能力
零样本图像识别:识别出兔子
带上下文的图像问答:分辨出绒啄木鸟(downy)
以及图形推理:完成需要理解图形规律的 IQ 测试

我梳理了这篇论文的摘要
能够识别语言和图像,在上下文中学习和生成文本输出
可应用于语言任务(如推理,理解,生成,文字分类)和视觉任务(如图像识别,描述,提问,答复)
该模型基于Transformer语言模型,并使用一个名为Magneto的预训练模型,具有 1.6 亿参数
训练目标是预测下一个token,输入包括文本,图像嵌入,文档
能够在上下文中学习新的概念和关系,例如根据给定的图片或声音识别出其中的物体或动作 5. 该模型在数据集(如 MSCOCO,Raven IQ, Hateful Memes)上进行评估,并与其他模型(如 Clip 和 Flamingo)进行比较
其在语言和视觉任务上获得了不错的结果,且超过其他基准模型
作者还介绍了一个新颖的数据集——Raven IQ test,用于评估 MLLMs 的非语言推理能力
作者认为 MLLMs 是实现人工通用智能(AGI)的关键一步,并展望了未来可能面临的挑战和机遇
语言任务
语言理解
语言生成
OCR-free文本分类
跨模式转移
常识推理
非语言推理
智商测试(Ravev渐进矩阵)
感知语言任务
图像说明
视觉问答
网页问答
视觉任务
零样本图像分类(zero-shot classification, ZSC)
带描述的零样本图像分类
- 图像解释(1)-(2)
- 图像问题回答(3)-(4)
- 网页问题回答(5)
- 简单数学计算(6)
- 数字识别(7)-(8)

- 图像说明 (1)-(2)
- 图像问题回答 (3)-(6)
- OCR (7)-(8)
- 基于图像的对话 (9)-(11)

- 在Raven IQ测试中评估 KOSMOS-1
- Prompt 由平面图像矩阵和口头指令组成
- 我们将每个候选图像分别附加到提示上,并询问模型是否正确。最终的预测是促使模型产生最高概率的 "是 "的候选答案,使得 KOSMOS-1 具备非语言领域的推理能力

- 多模态思维链:使KOSMOS-1首先产生一个理由,然后处理复杂的答题和推理任务

可以看出,多模态模型让 Kosmos-1 具备了可以理解图片的能力,识别图片内容,学习与图片相关的知识,甚至完成 IQ 测试,越来越向「人」的能力接近。
微软在月初表示其计划向开发人员提供 Kosmos-1,但该论文引用的GitHub页面还没有出现包括 Kosmos 的特定代码,会在 GPT-4 发布后一并更新吗?
GPT-4 除了能理解图像,还有声音和视频。也就是说,万事万物都可以被其理解和输出,我们又向 AGI(通用人工智能)迈进了一步,在有生之年可能会进入人和 AI 共存的世界,AI 可以直接通过摄像头和扬声器和人类沟通,越来越像「人」甚至超越「人」。
未来是像流浪地球2这样充满摄像头的世界,还是充满人造人的西部世界?

这样的世界很难想象,我们只能不断提升自己的能力来面对,驾驭 AI 而不是被 AI 淘汰

欢迎来推特一键三连。我会定期分享案例与思考,AI和NFT这类科技如何为企业、创作者和消费者带来改变


Thanks for reading Web3Brand! Subscribe for free to receive new posts and support my work.
starzq.eth
All comments (0)