# AI技术之算法综述20210104

By [haxrye](https://paragraph.com/@haxrye) · 2022-01-06

---

在2021年在线讨论最多的内容是人工智能，很多行业、场景和​体验，都开始引入AI能力提供的更好的体验。本周的GoogleAI听音乐就可以转译出曲谱、乐器，实现从音乐到音符，这是​很有趣​。跟阅粒的想做的事情一样，如果算法听一遍自己写出来、并进行改进优化，​这算侵权的吗？著作权​怎么处理？阅粒人工智能技术应用机器人给你做个上周的综述。

Walkme.com 使用分析工具 Buzzsumo 的数据编制了一份 2021 年在线讨论最多的技术列表，其中人工智能以 175,837 篇在线文章位居榜首，人工智能是 2021年讨论最多的技术。

谷歌推出全能扒谱AI音乐转音符模型MT3，只要听一遍歌曲，钢琴小提琴的乐谱全有了，这个算法受到低资源NLP任务迁移学习的启发，证明了通用Transformer模型可以执行多任务 AMT，并显著提高了低资源乐器识别的性能。

**topic：AI+认知智能**

上周，微软推出下一代会话语言理解客户端库，Conversational Language Understanding 客户端库，允许开发者使用 Azure Cloud Conversational Language Understanding 服务来训练模型并在应用程序中使用，以提供相关的语言服务。开发人员可以使用 .NET 或 Python，这些库目前处于 beta 开发阶段。语言认知服务使用多语言 Transformer 模型。据官方称，与现有的语言理解服务相比，开发人员会注意到性能的显着提升。

认知服务和NVIDIA AI提升Microsoft Teams实时字幕和转录功能，NVIDIA Triton开源推理服务软件能够帮助Teams使用认知服务优化语音识别模型，通过Microsoft Azure 认知服务为Teams提供28种语言的字幕和转录，并将很快能够在NVIDIA GPU上运行关键的计算密集型神经网络推理。实时字幕功能帮助与会者实时跟踪对话，转录功能方便与会者在日后回顾当时的创意或回看未能参与的会议。

加州大学伯克利分校研究人员推出无监督强化学习基准 (URLB)，他们使用开源 PyTorch 代码为 8 个领先或流行的基线创建并发布了一个无监督的 RL 基准测试。近年来已经提出了几种无监督的 RL 算法。但由于评估、环境、优化等方面的差异，一直无法客观比较。因此，该团队推出了URLB（无监督强化学习基准）工具，该工具可为无监督 RL 算法提供定义的评估过程、域、下游任务和优化。

**topic：AI视觉**

芝加哥大学和特拉维夫大学的研究人员推出了“Text2Mesh”：一种根据文本目标改变 3D 网格的颜色和几何形状的新框架，Text2Mesh 通过使用基于傅立叶特征映射的位置编码克服了这个问题，使用“神经样式字段”作为“神经先验”，利用其归纳偏差（即神经网络倾向于“假设”呈现给它的每个样本都表现出用于训练的样本共有的特征）使结果远离 CLIP 嵌入空间中存在的退化解决方案（由于图像与文本关联中的许多误报）。可以被认为是低维的顶点（因为它们由 3D 向量表示），被馈送到多层感知器 (MLP) 以学习神经样式字段（充当从顶点到颜色和沿法线方向的位移）。在网格具有尖锐边缘或非常详细的 3D 特征的情况下，这会导致谱 偏差的发生，即浅层网络无法学习复杂或高频函数的趋势。

加拿大初创公司 Wombo.ai 最近发布了适用于iOS和Android的应用程序Dream ，这款 AI 驱动的艺术应用程序可让您用文字绘画，它让用户只需输入文本提示并选择视觉风格即可创作原创“艺术品”。该应用程序由 2021 年出现的 OpenAI DALL-E 人工智能技术提供支持。

\*\*topic：AI+机器人+医疗 \*\* 研究人员开发了一种机器学习程序和脑机接口，机器学习程序连接到人脑并指挥机器人，使患者能够用他们的思想控制机械臂的运动。概念验证可以让机器人为四肢瘫痪患者执行任务，并最终用于控制轮椅。该系统使用逆向强化学习（一种基于从人类行为中提取奖励的人工智能框架）来确定和学习患者希望机器人做什么。一个算法连接到一个脑电图头帽，扫描一个人的大脑活动。当机器人出错时，患者的大脑会发出一个“错误信号”，并在扫描中解码。这告诉机器人任务是错误的。错误信息被输入算法，机器人通过不同的动作，通常是 3-5 个新动作，在试错过程中确定哪个动作是正确的，随着时间的推移不断学习。

**topic：AI+元宇宙**

Meta、Microsoft 和其他公司的 Metaverse 产品只是 3D 虚拟社交空间，缺乏 Metaverse 概念的关键特性，主要是互操作性。风险投资家马修鲍尔的一个被广泛引用的定义始于这样一个前提，即它是一个“实时渲染的 3D 虚拟世界的大规模和可互操作的网络”，它可以跨时间跨平台和设备持续存在，虽然元宇宙的定义各不相同，但大多数支持者都认为它不仅仅涉及戴上虚拟现实护目镜或增强现实眼镜以及与化身互动。它意味着通过技术标准连接无数较小的数字世界和体验，允许用户在它们之间移动，随身携带他们的虚拟身份、社会关系和财富。

万科集团董事会主席郁亮，在微信朋友圈发了一则信息：“祝贺‘崔筱盼’获得2021年万科总部优秀新人奖，她催办的预付应收/逾期单据核销率达到91.44%。今年2月1日正式“入职”，在系统算法的加持下，她很快学会了人在流程和数据中发现问题的方法，以远高于人类千百倍的效率在各种应收/逾期提醒及工作异常侦测中大显身手。万翼科技不仅在推动万科管理流程的数字化，更研发出了面向复杂地产业务的AI智能审图等产品，据说，他们已支持审查建筑、结构、给排水、暖通、电气五大专业图纸，审图效果达到人类的8倍。比如之前涛哥去龙湖集团参观，看到龙湖总部也使用了大量机器人，有帮员工办理工牌、开在职证明、自助报销的，还有能接待访客、引导参观等。

**topic：AI风险**

根据 BBC 的一份报告，Alexa 发现了她所谓的“一分钱挑战”，这是一种病毒式的特技，人们将手机充电器的一部分插入墙上的插座，然后用一分钱接触暴露的插脚。Alexa 显然向小女孩描述了挑战是如何运作的，Alexa 告诉孩子尝试危险的特技，因为这是搜索引擎所说的，亚马逊迅速删除了令人担忧的结果，亚马逊表示：“客户信任是我们所做一切的核心，Alexa 旨在为客户提供准确、相关和有用的信息。一旦我们意识到这个错误，我们就采取了迅速采取行动修复它。”

---

*Originally published on [haxrye](https://paragraph.com/@haxrye/ai-20210104)*