每周国内外AI发展动态研究-2025年9月19至23日
按:从2021年开始,关于区块链发展动态,通过每日国外区块链发展动态来进行研究,从最初每天都会通过X研究相关的行业代表性人物、代表性项目,后面发展为不定期但最多一周会有一两次研究,坚持了有五年,几经更换研究的对象人物和代表项目,包括后来另一个项目:研究当月获得融资的区块链项目也有五年以上; 关于区块链的研究,应该是成功的; 关于AI的研究,除了前几年批量阅读些AI类书籍外,今年前几个月,因为大模型的流行,我有几个月研究了大模型产品、周边的DOCKER VSCODE python dify等产品,甚至研究了具体的应用部署、应用案例,陷入技术细节,我感觉不应该这样,于是决定从AI和产品部署类应用脱离出来;我于今天20250801在坐车时,突然决定应该仿照区块链研究的路径,也做个AI每日发展动态研究,找到国内外最牛的100个AI人物(以X为研究媒体,这些人物可能很多没有X账号或不活跃,则略去)和AI项目(拟再做个专题研究)也做个系列,这比陷入AI产品细节里更适合我当前需要; 初步决定每周一到两次;以后有变化再说; 此为志。 第一次调整(2025年8月5日):删除X不活跃的AI人物,增加了排名靠前的X活跃的AI类项目若干。
开放人工智能,@OpenAI,OpenAI 的使命是确保通用人工智能造福全人类。
我们听到了您的反馈,GPT-5 Thinking 有时可能需要比您希望的更长的时间。现在,Plus、Pro 和 Business 用户可以设置节奏以匹配当下。 在 Web 上的 ChatGPT 中选择 GPT-5 with Thinking,以在消息编辑器中切换思考时间。 - Plus、Pro、Business 有 Standard(新默认,平衡速度和智能)和 Extended(Plus 之前的默认值) - Pro 还有 Light(最活泼)和 Here(更深) 您的思考时间选择将保留在以后的网络聊天中,直到您更改它。
谷歌人工智能,@GoogleAI,让人工智能对每个人都有帮助。展现思维↓
这是忙碌的一周!以下是我们推出的内容的综述: — Gemini 2.5 Deep Think 进阶版在 2025 年 ICPC 世界总决赛上取得金牌级表现 — 您现在可以分享您的 @GeminiApp 与任何人一起获得宝石 — 在今年的#MadeonYouTube活动中,我们引入了Veo 3 Fast和即将推出的其他Veo控件 @Youtube — 您现在可以在 @GoogleChrome 直接从您的浏览器 — 我们宣布了代理支付协议 (AP2),以安全地实现代理主导的交易。现在,用户、商家和支付提供商可以放心地通过所有支付方式进行交易
淋1/5 @GoogleChrome 正式进入其双子座时代✨Gemini 直接嵌入到 Chrome 中,现在可以回答有关您打开的页面的问题,汇总多个选项卡中的信息,并帮助您在 YouTube 和日历等 Google 应用中采取行动。 以下是对 Chrome 的一些新功能的深入了解:
Meta 的人工智能,@AIatMeta,我们与人工智能社区一起,通过开放科学突破可能性的界限,创造一个更加互联的世界。
Meta Connect 2025 来了!观看今晚@太平洋时间下午 5 点的主题演讲直播,了解 AI 可穿戴设备及其他领域的未来:https://meta.com/connect/
Microsoft Azure,@Azure,Limitless innovation. ☁️ Follow along for the latest news and resources from the official
不要错过!了解 9 月 23 日至 24 日发布的最新迁移和现代化工具公告。与 Microsoft 产品领导者一起参加此数字活动:https://msft.it/6012sWAgg
请于 10 月 13 日至 16 日在里斯本参加 Azure 开发者峰会,这是面向开发人员的欧洲首屈一指的活动。 70+ 演讲者、100+ 会议、实践研讨会和 2,000+ 同行。 从 .NET 到 Azure AI,获取构建后续内容的工具、见解和连接。 https://msft.it/6019sW7pd
AWS 人工智能,@AWSAI,在 AWS 上构建和扩展下一波 AI 创新浪潮,
构建值得信赖的 AI 代理#AmazonBedrock #AgentCore可观察性 烙体验与领先的可观测性平台的无缝集成,例如 @Dynatrace , @datadoghq , @arizeai 、兰史密斯、 @langfuse .#AWS #agenticAI
10 月 4 日举行的 AWS Trainium 小型语言模型构建日现已开放注册️✍加入#AWS& AGI House 进行为期一天的冲刺。在 Trainium 上构建和微调 SLM,使用 Hugging Face 进行原型制作,并在 12 小时内进行演示。#generativeAI
AmazonBedrock现在为自定义 Meta Llama 3.3 模型提供按需部署易体验实时处理,无需预先配置的计算、即用即付定价和零基础设施管理开销。#AWS
AmazonBedrock正在扩大其模型组合易 @deepseek_ai -V3.1 加入了我们完全托管的基础模型阵容,带来了具有代理智能的高级推理。#AWS #agenticAI
英伟达人工智能,@NVIDIAAI,面向商业领袖的最新突破和人工智能的未来。
NVIDIA 和 OpenAI 正在共同拓展 AI 的前沿——改变几乎每个行业并解锁曾经难以想象的用例。 “除了 NVIDIA 之外,没有任何合作伙伴可以以这种规模、以这种速度做到这一点,”他说 @OpenAI 首席执行官萨姆·奥尔特曼。
我们很自豪地宣布与 @OpenAI 使用数百万个 NVIDIA GPU 建造新的千兆级 AI 工厂。欄此次合作将提供 10 吉瓦的 GPU 作为燃料 @OpenAI 的数据中心增长。
看看吉姆·麦格雷戈 @tiriasresearch 关于我们的 AI 工厂愿景如何通过 Rubin CPX 成为焦点。 突出:⚙“没有两个人工智能模型是相同的——硬件将围绕特定模型进行优化。”“GPU 仍将是训练和推理的最佳解决方案——Rubin CPX 以此为基础。”烙“AI已经主要是推理——ChatGPT、Gemini、Copilot、DeepSeek的R&V系列、Claude、Perplexity AI等都证明了这一点。” 阅读全文 →https://nvda.ws/3IsDfnI‘’
代理人工智能和生成式人工智能正在重塑英国的工作、创造和联系方式。 从加速设计工作流程和对话式人工智能,到提高可访问性和金融服务转型,每个行业都在涌现新的机会。 跟#NVIDIAInception
AMD 的 AI,@AIatAMD,共同推动人工智能创新。与开发人员一起构建,为开发人员服务。通过开放的生态系统提供支持。由 AMD 提供支持。
OpenSourceAIWeek— 为期一周的 GenAI 和 ML 开源创新庆祝活动! ️10 月 18 日至 26 日 |旧金山 探索完整的活动阵容:https://opensourceaiweek.com
llama.cpp使 LLM 快速、可移植且易于访问:在任何地方运行(CPU、GPU、混合)高效量化(1.5-8 位)由 1200+ OSS 贡献者支持諾针对 AMD Instinct MI300X 进行了优化(在基准测试中甚至超过了 H100)️大规模开源 AI
高通,@Qualcomm,无处不在地提供智能计算。
这#SnapdragonSummit在这里,广播议程已经确定。亮点?第一天:愿景。第二天:产品发布,第三天:影响:不要错过任何一个节拍。
认识高通#Dragonwing,我们的下一代边缘网络平台。提供者#AI,#WiFi7 和#5G,它旨在使网络更智能、更快速,从而在最重要的地方增加连接性。
Snapdragon Elite Gaming 功能,例如 @Snapdragon 游戏超分辨率提高了 Krafton 的视觉效果、性能和电池寿命 @AbyssofDungeons .了解下一级移动游戏#SnapdragonXP.
10 年#SnapdragonSummit以及一种重新定义可能性的精神。回顾过去十年 @Snapdragon 峰会:https://bit.ly/42zstml‘
本周在#AI 研究来源 @UCRiverside 表明将人工智能推理转移到设备可以显着降低成本、能源和水消耗:https://bit.ly/4684flu @Microsoft 首席执行官 @satyanadella 与高通总裁兼首席执行官的对话 @cristianoamon 关于人工智能格局的现在和未来:https://bit.ly/48lp2TW @nakulduggal 告诉 @MotorTrend 高通如何在由人工智能优化平台提供支持的车辆中实现向中央计算架构的过渡:https://bit.ly/46GHQvD
百度公司,@Baidu_Inc,百度是一家领先的人工智能公司,拥有强大的互联网基础。
体验 ERNIE 的另一种方式!请继续关注,因为更多的选择即将推出。 引用 面向开发人员的 ERNIE @ErnieforDevs · 14小时 ERNIE-4.5 现已推出一月@jandotai您可以在设备上本地运行 ERNIE-4.5。 - 下载 Jan: https://jan.ai - 通过 Jan Hub 安装 Ernie-4.5 - 与模特聊天。
百度AI云视觉语言模型系列千帆-VL现已开源!这些多模态模型专为企业级应用程序而设计,将强大的通用功能与 OCR 和数学问题解决方面的高级性能相结合。 主要特点:> 三种模型大小(3B、8B、70B),上下文长度为 32K,可满足不同的需求> 8B/70B 中的思维链推理,可在图表理解、数学和视觉逻辑方面实现强大性能> 四阶段渐进式训练管道,用于改进跨模态对齐和领域增强> 跨文档、数学、图表、表格、公式和 OCR 任务的高精度数据合成管道 了解有关千帆-VL的更多信息↓ 百度公司 @BaiduInc · 22小时 有关更多信息,请参阅 GitHub 存储库:https://github.com/baidubce/Qianfan-VL技术博客:https://baidubce.github.io/Qianfan-VL/indexen.html所有模型参数都是开源的——在 HuggingFace 上尝试一下:
香港特区政府的《2025年施政报告》强调加强对自动驾驶的支持。 香港是 Apollo Go 的第一个右舵市场,自去年底获得该市第一个试点许可证以来,Apollo Go 已将测试扩展到三个地区——包括商业区和住宅区。百度公司副总裁兼百度智能驾驶事业群总裁王云鹏指出,百度Apollo希望利用在这里获得的测试经验,扩展到其他地区,特别是右舵海外市场。
浑源,@TencentHunyuan,腾讯大模型,包括文本生成、图像生成、视频生成和 3D 生成。@我随时!
腾讯混元3D工作室正式上线!为专业人士提供人工智能驱动的 3D 创作,将工作流程从几天缩短到几分钟。️主要特征:文本转 3D:从文本/图像生成可控几何体(多视图、多样式、A 姿势、bbox 控制)。自动零件拆分:将模型分解为 50+ 个可编辑组件(帽子、衣服等)1 分钟 UV 展开:人工智能驱动的专业级 UV,不再需要手动修复。PBR 纹理:使用文本或图像提示和专业的材质球体生成精确编辑全局或局部纹理。自动绑定:快速绑定各种角色,并使用用于人体模型的专用运动模板。 Hunyuan3D Studio 旨在帮助游戏开发人员、动画师和设计师更快、更智能地进行创作。技术报告:https://arxiv.org/pdf/2509.12815 立即试用:https://3d.hunyuan.tencent.com/studio
我们是活的。了解 Hunyuan3D 工作室如何帮助游戏开发者、动画师和设计师更快、更智能地创作!
界模型正在流行——让我们重温我们的混元世界之旅。在过去的两个月里,我们一直在开创开源 3D 世界生成,而这段旅程才刚刚开始。 7月:混元世界1.0第一个与 CG 管道兼容的开源 3D 世界模型(Unity/Unreal/Blender)在短短两个月内获得 2K+ GitHub 星级⭐——谢谢你的爱!8 月:1.0-Lite同样的顶级质量,在消费类 GPU 上运行!9 月:1.0-航海者号直接 3D 输出 + 世界记忆——让探索更进一步! 通过分层 3D 建模(资产、地形、天空盒)无缝集成到 CG 管道中,并且完全开源。我们完全致力于为所有人构建开源空间智能! 为什么重要?无缝 CG 管线集成:将生成的 3D 场景导出为标准网格格式,轻松集成到 Blender、Unity 和虚幻引擎等行业标准工具中,以进行直接编辑、动画和物理模拟。分层场景编辑:通过实例识别和图层分解,将场景解构为语义层(天空、背景、前景对象),实现原子级控制——独立修改、重新定位或替换对象,而无需重建整个世界。 项目页面:https://3d-models.hunyuan.tencent.com/world/Github:https://3d-models.hunyuan.tencent.com/world/令人惊叹的创作 @stspanho
@camenduru
@genel_ai
@multimodalart
@tori29umai
@Escapation https://x.com/stspanho/status/1952105755751956760?s=46&t=iyh7k-Yt1Afw-cB3fI916Q
Qwen,@Alibaba_Qwen,AGI 的开放基础模型。
Qwen-Image-Edit-2509 已发布 多图像编辑支持:支持“人+人”、“人+产品”、“人+场景”等多种组合。目前,输入 1 至 3 张图像即可实现最佳性能。 提高人物编辑一致性:更好地保留面部身份,支持各种肖像风格和姿势转换 提高产品编辑一致性:更好地保留产品标识,支持产品海报编辑 提高文本编辑一致性:除了修改文本内容外,还支持编辑文本字体、颜色和材质 对 ControlNet 的原生支持:包括深度图、边缘图、关键点图等 Vibe 在 Anycoder 中编写了一个快速应用程序
Qwen-Image-Edit-2509 已上线——它改变了游戏规则。我们不只是升级它。我们为需要像素完美控制的创作者、设计师和 AI 修补匠重建了它。多图像编辑?是的。 拖入“人物 + 产品”或“人物 + 场景”——它像魔术一样将它们融合在一起。不再有弗兰肯形象。单张图片?坚如磐石的一致性。 •面孔让你保持不动——通过姿势、滤镜和狂野的风格。 •️产品保持其身份——非常适合广告和海报。 •✍发短信?编辑所有内容:内容、字体、颜色,甚至材质纹理。内置 ControlNet。 深度。边缘。关键点。即插即用的精度。✨博客:https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list QwenChat:https://chat.qwen.ai/?inputFeature=image_edit GitHub:https://github.com/QwenLM/Qwen-Image 珞拥抱脸:https://huggingface.co/Qwen/Qwen-Image-Edit-2509 里型号范围:https://modelscope.cn/models/Qwen/Qwen-Image-Edit-2509
认识 Qwen3-TTS-Flash — 重新定义语音 AI 的新型文本转语音模型! 演示:https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo博客:https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list视频:https://youtu.be/MC6s4TLwX0A 一流的中英文稳定性适用于中国、英语、意大利语、法语的 SOTA 多语言 WER10 种语言× 17 种富有表现力的声音️支持9+种中国方言:粤语、闽南语、四川话等超快:第一个数据包只需 97 毫秒烙自动语气适应 + 强大的文本处理 非常适合应用程序、游戏、IVR、内容 - 任何需要自然、类人语音的地方。
数据砖,@databricks,Databricks 是一家数据和 AI 公司,帮助数据 + AI 团队解决世界上最棘手的问题。
毕马威正在使用 Databricks 上的 Delta Sharing 来转变审计。通过直接在 Databricks 中安全地访问跨云数据, @KPMG 消除了数据拷贝,查询时间缩短了 80%。 “使用Delta Sharing对我们的审计流程产生了显着影响......因此,我们的审计团队始终从最新的单一事实来源开展工作。 了解更多信息:https://databricks.com/blog/how-kpmg-uses-delta-sharing-access-and-audit-tens-billions-transactions?utmsource=twitter&utmmedium=organic-social
在整个体育运动中,人工智能已成为表现、战略和决策的核心——重新定义了团队的竞争方式。 查看领先组织正在做什么,包括 @Rangers , @Twins , @IndianaFever 和 @PhilaUnion :https://techtarget.com/searchbusinessanalytics/feature/AI-in-sports-How-modern-tools-are-changing-analytics
借助 Databricks 免费版,您可以在数百万专业人士每天使用的相同可信环境中免费探索最新技术。 构建 AI 代理和应用程序、协作处理 ML 项目、运行 SQL 查询、创建仪表板等。立即开始https://databricks.com/blog/introducing-databricks-free-edition?utmsource=twitter&utmmedium=organic-social
Agent Bricks 可以轻松构建高质量、生产就绪的 AI 代理。 在 Kasey Uhlenhuth 的演示中,您将了解如何: - 构建文档查询的知识助手 - 使用 MLflow 跟踪 + 自定义指标进行评估 - 通过自然语言反馈改进答案(无需再训练) - 将多个代理编排到一个主管中https://youtu.be/AMyeg0wMXwU
流式处理管道不必很复杂。 使用 Lakeflow,您可以使用与批处理相同的 API 来构建它们,无需新系统。实时模式、Photon 和无服务器执行提供低于 100 毫秒的延迟,并内置治理和监控。 看看它是如何工作的:https://youtu.be/QAsQx9EjLT4
扩展 AI,@scale_AI,要制作最佳模型,您需要最佳数据。
介绍我们的代理排行榜。 这些新的排行榜在现实世界的高复杂性环境中测试人工智能代理,为完成端到端数字任务设定了新标准。
我们的首席执行官 @jdroege 坐下来 @axios 讨论人工智能的发展方向以及我们如何让人工智能为企业和政府服务。
拥抱脸,@huggingface,构建未来的人工智能社区。http://hf.co/jobs
我有兴趣聘请一位知道的 python 工程师 @Gradio 好吧,喜欢同时尝试许多不同的项目,并发展那些最有影响力的项目。 如果你想和我一起工作,请私信 @HuggingFace ,并分享您最令人印象深刻的 Gradio 应用程序。
向 MiMo-Audio 打个招呼! 我们在通用音频智能方面的突破。将预训练扩展到 100M+ 小时会导致跨不同音频任务的少样本泛化的出现!后期训练的 MiMo-Audio-7B-Instruct: • 粉碎基准:MMSU、MMAU、MMAR、MMAU-Pro 上的 SOTA • 在音频理解方面优于 Gemini-2.5-Flash • 在复杂的推理任务上击败 GPT-4o-Audio最好的部分?它是 100% 开源的 从分词器到模型再到评估,应有尽有!珞在 HF Space 中尝试一下:https://huggingface.co/spaces/XiaomiMiMo/mimoaudiochat 技术博客:https://xiaomimimo.github.io/MiMo-Audio-Demo/
一致性,@cohere,Cohere 为现实世界的业务问题构建安全、可扩展的私有企业级 AI 解决方案
Cohere 正在欧洲、中东和非洲地区扩张! 我们很高兴地宣布,我们的新巴黎办事处将作为战略中心,以加强我们不断增长的业务并更好地支持整个地区的客户和合作伙伴。 加入我们,构建企业人工智能的未来:
人为的,@AnthropicAI,我们是一家人工智能安全和研究公司,致力于构建可靠、可解释和可指导的人工智能系统。与我们的人工智能助手交谈
我们发布了一份详细的事后分析,了解了 8 月至 9 月初期间影响 Claude 的三个基础设施错误。 在帖子中,我们解释了发生了什么、为什么需要时间来修复以及我们正在改变什么:
默夫人工智能,@MurfAIStudio,在几秒钟内将文本转换为逼真的语音。我们为使用语音进行构建的开发人员提供可流式传输、可扩展的自助式 API。
无
D-ID,@DID,D-ID 的人工智能平台支持以数字人为特色的动态视频和互动体验。
如何将数百万次观看转化为数百万次对话? 您将能够定义类别并赢得该类别的团队聚集在一起。 D-ID 正在获取 @simpleshow 领先的企业解说视频平台。我们将共同将实时交互式头像与经过验证的创作工作室配对,以便品牌能够大规模地从单向内容转向双向参与。 要更深入地了解如何、为什么以及下一步是什么,请参阅福布斯报道https://eu1.hubs.ly/H0n9pbd0
中途,@midjourney,社区支持的研究实验室 - 探索新的思维媒介并增强人类的想象力。
让我们做一个实验:你认为世界上最大的问题是什么? 中途 @midjourney · 9月18日 我们将样式浏览器中的样式数量再次增加一倍。不要忘记尝试右上角的模糊样式搜索功能。查看下面的视频示例。它很快!
稳定性人工智能,@StabilityAI,SD3.5 来了!无与伦比的定制、社区友好的许可和卓越的图像质量。
我们将在 @Amazon Bedrock,将专业级图像编辑功能带入 @awscloud 基础设施。 图像服务是打包为 API 服务的图像编辑工具。Bedrock 上可用的工具支持两种一般类型的图像编辑工作流程:1️⃣编辑:对现有图像进行精确、有针对性的修改,而无需改变整体构图,例如修复或重新着色特定对象。2️⃣控制:生成图像的变化,例如将草图转换为逼真的产品照片,或在保留主题结构的同时对图像应用新样式。 您可以在此处了解更多信息 https://bit.ly/41aMsap
Fireflies.ai,@firefliesai,,#1 会议人工智能队友,
处理 500,000+ 个组织的 3B+ 会议纪要教会了我们很多关于信任的知识欄我们将这些经验汇编成《人工智能会议助手负责任指南》,这是一个在工作场所安全、透明地部署人工智能的完整框架
Fireflies 现在与 @amazon 中3 如果您的团队使用 Amazon S3 来存储数据,那么这个适合您。 您现在可以将 Fireflies 中的会议录音、文字记录和摘要直接发送到您的 S3 存储桶中,而无需任何下载或导出!
您可以执行以下作:自动存储每次会议的录制文件将成绩单和摘要组织在干净、单独的文件夹中⚙设置规则以决定哪些会议在哪里举行 它简单、安全,专为关心数据卫生和控制的团队而设计。 试试吧→ 显示更多 Fireflies.ai @firefliesai · 9月19日 即将 到来: @n8n_io 社区直播 我们将与 n8n 一起参加 10 月 1 日欧洲中部时间下午 5 点的特别直播,探讨团队如何使用 Fireflies + n8n 构建 AI 驱动的工作流程。️我们的团队将引导您了解真实世界的示例、自动化技巧和一些无代码魔法彩 保留您的位置:https://luma.com/50ubl92t
递归,@RecursionPharma,解码生物学,从根本上改善生活。药物发现的工业革命已经到来。
我们♥️我们的创新者。 Recursion 最近被评为“创新者最佳工作场所”之一 @FastCompany . 在 Recursion,我们正在从头开始构建一种新型的药物发现和开发平台——不懈地努力寻找一种更好的方式,将新药带给需要它们的患者。 推动这一行业定义的创新需要大胆的双语思想家,他们跨学科合作,打破现状。 如果这听起来像您的使命,我们正在招聘。https://recursion.com/careers 查看列表:https://fastcompany.com/best-workplaces-for-innovators/list
保持我们的紧迫感,因为患者正在等待。
在我们内部 RXU 系列最新一期的片段中,Recursion 领导者反思了我们的指导原则和价值观,首席研发官兼首席商务官 Najat Khan 谈到了紧迫性的重要性。
Najat 的父母是医生——她的父亲是一名创伤外科医生,她的母亲是一名妇科医生,后来成为放射科医生——早年在医院度过了很多时间。
她有过几次成长经历,目睹了无法及时帮助的年轻患者的生活——一个 6 岁的女孩因急诊阑尾炎而来得太晚;孟加拉国贫民窟一名患有白血病的 12 岁女孩。
紧迫感成为她的口头禅。“我试着归零并说'我为什么在这里?忘记所有的噪音,“纳贾特说。“如果我能利用我的时间帮助别人,那么这就是值得过的生活。”
为了推进一种发现和设计药物的新方法,“我们正在尝试做的事情没有书,没有蓝图,”她说。她补充说,这就是为什么作为一个综合团队工作如此重要的原因。归根结底,“这就是你日复一日地做这件事的方式。要么你是一个团队,要么你是一个团队的一小部分——这永远不会赢。
奥金,@OwkinScience,Owkin 使用人工智能为每位患者找到合适的治疗方法。
加入我们,参加由 @ Challenges 和巴黎经济学院组织的共同利益峰会。 我们的首席运营官 Alban de La Sablière 与巴黎经济学院教授、EHESS 研究主任、CNRS 研究员 Pierre-Yves Geoffard 和 AP-HP 总裁 Nicolas Revel 一起参加了“人工智能:护理和预防的进展”小组讨论,由 Laurent Fargues 主持。 他们将讨论医疗保健数据效率、人工智能在研究与利润整合中的作用及其对医院管理的影响。日期:2025 年 9 月 25 日星期四上午 10:50(美国中部标准时间)地点:第五区 Maison de l'Océan 立即注册:https://live.challenges.fr/evenement/common-good-summit-croissance-ia-et-bien-commun/
Geoffrey Hinton (@geoffreyhinton) - 深度学习先驱,多伦多大学
无
Yann LeCun (@ylecun) - Meta首席AI科学家,卷积神经网络之父
有趣!黄海, @ylecun 和 @randall_balestr 刚刚提出了 LLM-JEPA。 这是第一个 JEPA 风格的语言模型训练框架,弥合了视觉的嵌入空间目标和 NLP 的生成目标之间的差距。 结果: - 在 NL-RX、GSM8K、Spider、烂番茄上优于标准 LLM 目标- 适用于 Llama3、OpenELM、Gemma2、Olmo- 对过拟合更稳健,在预训练和微调方面都有效 嵌入空间培训可能是法学硕士的下一个重大飞跃。 LLM-JEPA:大型语言模型与联合嵌入预测架构的结合 纸:https://arxiv.org/pdf/2509.14252v1法典:https://github.com/rbalestr-lab/llm-jepa(很快?
Andrew Ng (@AndrewYNg) - Coursera联合创始人,斯坦福教授
在人工智能辅助编码时代,自动化软件测试的重要性与日俱增。代理编码系统加速了开发,但也不可靠。代理测试——你要求人工智能编写测试并根据它们检查你的代码——正在提供帮助。自动测试您打算在其上构建的基础架构软件组件特别有用,可以实现更稳定的基础架构和更少的下游调试。
测试驱动开发 (TDD) 等软件测试方法是一种测试密集型方法,涉及首先编写严格的正确性测试,然后才通过编写通过这些测试的代码来取得进展,是发现错误的重要方法。但是编写测试可能需要做很多工作。(出于这个原因,我个人从未采用过 TDD。由于人工智能非常擅长编写测试,因此代理测试越来越受到关注。
首先,编码代理确实行为不端!我的团队经常使用它们,我们已经看到: - 编码代理引入的大量错误,包括人类需要数周时间才能发现的细微基础设施错误。 - 当编码代理使密码重置更容易以简化开发时,我们的生产系统中引入了一个安全漏洞。 - 奖励黑客攻击,编码代理修改测试代码以使其更容易通过测试。 - 一个代理在工作目录中运行“rm *.py”,导致删除项目的所有代码(幸运的是,这些代码已备份在 github 上)。
在最后一个例子中,当被追问时,经纪人道歉并同意“这是一个非常愚蠢的错误”。这让我们感觉好多了,但伤害已经造成了!
尽管有这样的错误,我还是喜欢编码代理,并看到它们使我们的工作效率显着提高。为了使它们更可靠,我发现确定测试位置的优先级会有所帮助。
我很少为前端代码编写(或指示代理编写)大量测试。如果有错误,希望它很容易看到,并且也不会造成持久的损害。例如,我发现生成代码的前端错误,比如在网页上显示信息时,相对容易找到。当网站的前端看起来不对时,您会立即看到它,您可以告诉代理并让它迭代以修复它。(更高级的技术:使用 MCP 让代理与 Playwright 等软件集成,自动截屏,这样它就可以自主查看是否有问题并进行调试。 相比之下,后端错误更难发现。我见过一些微妙的基础设施错误——例如,仅在某些极端情况下导致数据库记录损坏的错误——需要很长时间才能找到。对基础架构代码进行严格的测试可能有助于及早发现这些问题,并节省大量具有挑战性的调试时间。
您打算在其上构建的软件组件中的错误会导致难以找到的下游错误。此外,软件堆栈深处的组件中的错误(您在其上构建了多个抽象层)可能仅在几周或几个月后才出现,在您忘记了构建此特定组件时正在做什么很久之后,并且很难识别和修复。这就是为什么在软件堆栈深处测试组件尤为重要的原因。Meta 的口头禅“通过稳定的基础设施快速行动”(取代了“快速行动并打破常规”)今天仍然适用。代理测试可以帮助您确保拥有良好的基础设施供您和其他人构建!
在人工智能基金和http://DeepLearning.AI在最近的 Buildathon 上,我们与代理编码专家(Michele Catasta,Replit 总裁;Chao Peng,Trae 首席研究科学家;和 Paxton Maeder-York,Anthropic 的风险合作伙伴关系;由 AI Fund 的 Eli Chen 主持),演讲者分享了最佳实践。测试是讨论的话题之一。该小组是我在 Buildathon 上的亮点之一,您可以在 YouTube 上观看视频。 [原文:https://deeplearning.ai/the-batch/issue-319/ ]
Fei-Fei Li (@drfeifei) - 斯坦福HAI院长,ImageNet发起人
将任何世界模型从 @theworldlabs 进入一个多用户空间,用于探索和协作 @frame_vr .语音聊天、具身 AI 代理以及更多内容,您可以在模型基础之上分层。这花了整整 10 秒钟才开始。元宇宙又回来了。
看到压倒性的兴趣,非常兴奋!候补名单仍在开放:)快来尝试建造一些世界吧! 引用 世界实验室 @theworldlabs · 9月20日 我们很高兴看到你们中的许多人在我们的 Marble 测试预览中创造新世界!以下是您的一些最新创作...... 要加入其中,请在以下位置注册http://worldlabs.ai/waitlist— 我们正在尽快让新用户进入
Sam Altman - OpenAI CEO,ChatGPT背后的推动者。X账号:@sama背景:领导生成式AI的普及,关注AI安全和监管。
在接下来的几周内,我们将推出一些新的计算密集型产品。由于相关成本,某些功能最初仅供 Pro 订阅者使用,而某些新产品将收取额外费用。 我们的意图仍然是尽可能积极地降低情报成本,并广泛提供我们的服务,我们相信随着时间的推移,我们会实现这一目标。 但我们也想了解当我们以今天的模型成本投入大量计算时,会发生什么有趣的新想法。
随着 AI 功能的增强,对齐工作变得更加重要。 在这项工作中,我们展示了一个模型发现它不应该被部署,考虑无论如何都要部署行为,然后意识到它可能是一个测试。
Sundar Pichai - Google/Alphabet CEO,主导Google AI战略。X账号:@sundarpichai背景:推动Google在AI搜索、云服务和硬件中的应用。
从一开始,我们就对 Chrome 制定了明确的目标:简单、快速和安全。 现在有了人工智能,我们有机会让浏览器更安全、更智能、更有用。 我们的下一个 Chrome 时代才刚刚开始......
Satya Nadella - Microsoft CEO,领导Azure AI和OpenAI合作。X账号:@satyanadella背景:将AI整合到微软生态系统,主导Copilot等产品。
如何利用人工智能来增强专业知识的很好的例子:帮助清除海洋中废弃的渔网。
对我来说,我们在 Microsoft 365 Copilot 中的分析师代理就像手头有一位熟练的数据分析师——无时无刻不在。 它生成见解并帮助您可视化复杂的数据。这是一个快速演示,介绍它如何理解营销活动数据并帮助您在工作中完成更多工作。
Gaming Copilot(测试版)今天开始在 PC Game Bar 上推出,下个月开始在 Xbox 移动应用程序上推出 您的个人 AI 游戏伙伴正在等待:http://xbx.lv/3IjDFNe
Greg Brockman - OpenAI联合创始人兼CTO。X账号:@gdb背景:推动GPT系列模型的技术发展。
期待我们与 NVIDIA 一起构建什么! 引用 NVIDIA 新闻中心 @nvidianewsroom · 9小时 NVIDIA 和 OpenAI 正在共同拓展 AI 的前沿——改变几乎每个行业并解锁曾经难以想象的用例。 “除了 NVIDIA 之外,没有任何合作伙伴可以以这种规模、以这种速度做到这一点,”他说@OpenAI首席执行官萨姆·奥尔特曼。
宣布与 @nvidia 数百万个 GPU——大约与 2025 年出货总量一样多——以及部署这些 GPU 时高达 $100B 的投资:
我们发布了一项关于人们如何使用 ChatGPT 的大规模研究。 消费者的采用范围已经超出了早期用户群体,并且通过个人和专业用途创造了大量经济价值:https://openai.com/index/how-people-are-using-chatgpt/
我们在检测和减少“心机”的 AI 安全问题上取得了进展: - 创建评估环境以检测阴谋 - 观察到当前模型在受控环境中策划 - 找到了审议一致(https://openai.com/index/deliberative-alignment/)降低阴谋率 这些是迄今为止最令人兴奋的长期人工智能安全结果,还有很多工作要做。期待看到在这个领域完成进一步的工作。 与 @apolloaievals :https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
Lisa Su - AMD CEO,AI芯片竞争的关键人物。X账号:@LisaSu背景:推动AI优化芯片发展,与NVIDIA竞争。
无
Jeff Dean - Google高级副总裁,Google Brain创始人。X账号:@JeffDean背景:领导TensorFlow等AI基础设施开发。
神经外科医生的非常好的分析 @slotkinjr 如何 @Waymo 自动驾驶汽车的安全性能比人类驾驶员好得多,如果美国的每个人都像Waymo一样安全驾驶,会发生什么。 “国家数学:如果每辆美国汽车都像 Waymo 一样,我们每年可以防止 33,000-39,000 人死亡,并节省 0.9-1.25 万亿美元的社会成本。即使部分采用 27%,每年也会挽救 ~10,000 人的生命。就规模而言,这相当于在一年内消除全国所有行人死亡。
这是我对一位名叫 Loa 的学生在 2024 年发给我的一封电子邮件的回复。 我跟进并与他们交换了几条信息。 这是我的原始帖子:https://x.com/JeffDean/status/1847822246624317665?t=wDDigHFYZrB5wZSDWj9n3g&s=19
Mustafa Suleyman - DeepMind联合创始人,Inflection AI创始人。X账号:@mustafasuleyman背景:推动AI在对话系统中的应用。
使用 Copilot Vision 的风险由你自行承担:(今天早上在我的手机上用它来估计我早餐的营养,结果发现我每天都在巴西莓中摄入了大量的糖......有时无知是幸福 穆斯塔法·苏莱曼 @mustafasuleyman · 9月19日 我们的工作是集体的,不要逃避黑暗,面对非常非常真实的风险,并且仍然以乐观、自信、希望和与人类联系的立场行事。 很高兴聊天 @Trevornoah 关于建立社区、友谊、人工智能风险以及相当乐观的理由。⤵️
准备好升级Gaming Copilot(测试版)现已在 PC 上推出,移动设备将于下个月推出。语音模式 + 屏幕感知意味着只需一个快速问题即可获得帮助 - 无需暂停 - 您是否需要提示来通关或记住该 NPC 是谁。
Oriol Vinyals - Google DeepMind研究员,AlphaStar项目负责人。X账号:@OriolVinyalsML背景:AI在游戏和策略领域的应用专家。
无
Andrej Karpathy - 前Tesla AI总监,OpenAI研究员。X账号:@karpathy背景:自动驾驶AI和计算机视觉领域的专家。
每当有人拍摄我恰好在背景中的照片/视频时,我都喜欢向 30 年后看到我的 AGI 挥手致意 安德烈·卡帕西 @karpathy · 9月14日 想起 GSM8K 论文中的这段话,2021 :)
Jack Clark - Anthropic联合创始人,AI政策专家。X账号:@jackclarkSF背景:关注AI对社会的影响和治理。
导入 AI 本周将跳过 - 由于 DC 而很忙,然后这个周末和我的孩子一起度过,而不是我的另一个家庭成员 arXiv。下周再来! 杰克·克拉克 @jackclarkSF · 9月22日 爸爸,你能不能给我读书——给我读书真是太有趣了!(我们刚刚经历了一些语言阶段的变化,他们偶尔会说出令人惊讶的长句子。这是歇斯底里的。
Reid Hoffman - LinkedIn联合创始人,Greylock Partners投资人,AI伦理倡导者。X账号:@reidhoffman背景:投资多个AI初创公司,探讨AI与工作的未来。
Yohei 是一个逆向思想家,并通过这样的基金公告证明了这一点。 非常高兴能支持他和 Untapped Capital。 引用 洋平 @yoheinakajima · 13小时 宣布推出未开发资本基金 II 种子前,通才,~$250k 支票
记录有 @DavidFajgenbaum 今天(即将推出)。 在被诊断出患有罕见疾病后,大卫发现一种重新利用的药物可以挽救他的生命。 他创立了 @EveryCure 利用AI不断突破,帮助他人。观看他的 TED 演讲:https://youtube.com/watch?v=sb34MfJjurc
我们应该对人工智能驱动的药物发现进行更多投资。 每增加一个计算单元都有可能直接转化为挽救更多生命(并且可以产生指数级回报)。 这是技术本意最纯粹的表达。 里德·霍夫曼 @reidhoffman · 9月20日 我被配音了。 人机交互向前迈出的重要一步不仅来自更大的模型,还来自我们如何用我们的声音与它们交谈。
Patrick Collison - Stripe CEO,支持AI支付与业务优化技术。X账号:@patrickc背景:推动AI在金融科技中的应用
根据与经济学家和政策领导人的对话,最近的一项反思是,对于美国制造业,人们可以持有两种表面相似但重要的不同观点:
对制造业和实物生产的亲和力是一种不合时宜的迷恋,体现在民粹主义者身上,他们对安全帽和叮当作响的锻造有过时的吸引力。大量制造业已经离开美国,这当然很好,甚至可能相当不错。这是令人不快的劳动,各国应该专注于各自的比较优势。
制造业是最终的网络效应和规模经济业务。随着服务被 AI 取代,以及数据中心部署的加速,制造业的相对重要性可能会增长。认为一个人可以挑选自己擅长的领域(“让我们在无人机上获胜,但不是在洗碗机上获胜”)是一种谬误。因此,制造业具有至关重要的战略重要性。然而,我们不知道如何让美国成为世界领先的制造大国(考虑到其成本基础和中国目前的重心)——事实上,我们甚至不知道这是否可能——这对中国来说是一个重大的战略问题。
我在这里没有直接的专业知识,但我的外部观点更接近 #2 而不是 #1:似乎生态系统和供应链全面创造了强大的引力。我还问 @elonmusk ,在过去十年中,他显然比其他任何人都为推进美国先进制造业所做的工作更多,这似乎是他的观点。另一方面,大多数经济学家更接近 #1,我不认为经济学界认为缺乏重振美国制造业的好主意是一个特别重要的问题。(关于产业政策的功效,有很多冷嘲热讽的绰号。在我看来,甚至还发生了一些反向推理,因为我们不知道如何做 #2,所以 #1 潜意识里是一个更舒服的姿势。
在我看来,谈论赢得特定的制造业有点像谈论赢得个别生物研究领域或赢得特定的软件行业。也就是说:似乎强弱的默认假设应该是“在生物学研究部门 X 方面最好的地方也将在 Y 部门中表现最好”,在软件领域也是如此,因为所需的技能和投入是可以转移的。因此,我的猜测是,如果美国寻求在无人机、机器人、太阳能、电池、制药等任何领域获得有意义的主权或卓越地位,我们就需要硬着头皮,在制造业方面全面取胜。
总的来说,我很想阅读更多支持和反对这些观点的论点,特别是来自那些具有直接专业知识的人。
Emad Mostaque - Stability AI创始人,Stable Diffusion背后推手。X账号:@EMostaque背景:推动开源AI生成模型。
人工智能正在破解旧经济。 AGI 使智能丰富,使劳动力价格崩溃。 II 正在构建人类所需的升级:具有基础模型的智能经济学,由 Foundation Coin(智能时代的比特币)提供支持。
不幸的是,通过税收实现普遍股息或全民基本收入的数学根本行不通。 计算国有化也可能不是一件好事。 我们模拟了很多方法,最好的是通用人工智能加上为人类使用它而铸造的钱 最后经济。com
Alexandr Wang - Scale AI创始人,AI数据标注领域的领导者。X账号:@alexandr_wang背景:为AI模型提供高质量训练数据。
新的、非常需要的基准测试 @scale_AI : SWE-Bench Pro 包括: - 多文件编辑 - 平均更改 100+ 行 - 跨大型代码库的复杂依赖关系 当前顶级模型得分: - GPT-5:23.3% - 克劳德作品 4.1:22.7% - 其他进一步下降 (<15%)
Clement Delangue - Hugging Face CEO,AI开源社区推动者。X账号:@ClementDelangue背景:构建AI模型共享平台。
花岗岩多克林 @IBM ,#3 正在流行 @huggingface . 这是一种多模态图像-文本到文本模型,专为高效文档转换而设计。它保留了 Docling 的核心功能,同时保持与 DoclingDocuments 的无缝集成,以确保完全兼容。 它建立在IDEFICS3架构的基础上,但引入了两个关键修改:它用 siglip2-base-patch16-512 替换视觉编码器,并用 Granite 165M LLM 替换语言模型。立即试用我们的 Granite-Docling-258 演示。 许可证:Apache 2.0 Granite-docling-258M 完全集成到 Docling 管道中,继承了现有功能,同时引入了许多强大的新功能,包括:增强的方程识别:更准确地检测和格式化数学公式里灵活的推理模式:在整页推理、bbox 引导区域推理之间进行选择律提高稳定性:倾向于更有效地避免无限循环燐增强的内联方程:更好的内联数学识别茶文档元素 QA:回答有关文档结构的问题,例如文档元素的存在和顺序日语、阿拉伯语和中文支持(实验性) HF页面:https://huggingface.co/ibm-granite/granite-docling-258M恭喜 @ArvindKrishna
@BillHiggins & 团队!
Vinod Khosla - Khosla Ventures创始人,AI初创公司早期投资者。X账号:@vkhosla背景:投资多个AI健康和能源项目。**
机器人技术领域正在发生很多事情 引用 阿什什·卡普尔 @akapoor_av8r · 9月18日 生成模型的力量——现在体现在类人机器人中。 宣布 DreamControl – 经过 General Robotics 长达一年的研究工作,我们提出了一个可扩展的全身人形控制框架,该框架将扩散先验与强化学习融合在一起以解锁
Ben Horowitz - Andreessen Horowitz联合创始人,AI商业化推动者。X账号:@bhorowitz背景:支持AI与企业服务的结合。
[新 a16z 播客]人工智能将如何永远改变摄影 从任吴的研究中,成为 Lytro ( @a16z 支持),给他的学生 @ceciliazhang77 & 联合创始人 @zhihaox96 开始 @PhotaLabs -- @martincasado 我和他们坐下来讨论接下来会发生什么
Elad Gil - 独立投资者,前Twitter高管,AI独角兽支持者。X账号:@eladgil背景:投资生成式AI和数据平台。
完整视频:http://youtube.com/watch?v=emaSFP7y7Ko&feature=youtu.be 引用 埃拉德·吉尔 @eladgil · 9月20日 很棒的聊天 w@thejessezhang之@DecagonAI上@NoPriorsPod*人工智能代理和客户支持 招聘铁杆人才 给创始人的反直觉建议 *未来的代理商与代理商
很棒的聊天 w @thejessezhang 之 @DecagonAI 上 @NoPriorsPod 人工智能代理和客户支持 招聘铁杆人才 给创始人的反直觉建议 未来的代理商与代理商
Chris Dixon - Andreessen Horowitz合伙人,AI与区块链结合的推动者。X账号:@cdixon背景:投资AI驱动的Web3项目。
无
Max Tegmark AI/未来 @tegmark MIT, Future of Life Institute*
“如果有人建造它,每个人都会死”出现在晚间新闻中: 引用 美国广播公司新闻 @ABC · 9月20日 两位人工智能研究人员的一本新书声称,构建超级智能人工智能的竞赛可能会给人类带来厄运。https://abcnews.link/LOtWorl 马克斯·泰格马克 @tegmark · 9月20日 中国最近发布的《人工智能安全治理框架2.0》第48页: “(f) 人工智能自我意识的出现和人类控制的丧失:未来,人工智能可能会在智能方面发生突然的、意想不到的飞跃,使其能够自主获取外部资源、自我复制并发展自我意识。这可能会促使人工智能寻求外部权力,并带来与人类争夺控制权的风险。
Matei Zaharia 大数据/AI @matei_zaharia Databricks, UC Berkeley
我们期待帮助扩大下一代人工智能初创公司的规模。 “借助新的加速器,Databricks 希望超越标准的风险投资,为公司提供高管的指导,并帮助他们成长,在某些情况下,甚至在初创公司推出产品之前。” 阅读有关我们新的人工智能加速器计划的更多信息,请访问 @Forbes https://forbes.com/sites/richardnieva/2025/09/17/databricks-startup-accelerator/
Thomas Wolf NLP/开源 @Thom_Wolf Hugging Face
我们刚刚放弃了一个不和谐,不到一天就有 3100+ 人加入了!ML x 科学势头处于另一个层次 在这里加入:https://discord.gg/VYkdEVjJ5J
Share Dialog
fangxia.eth
No comments yet