ChatGPT启示录系列：万字长文解码全球AI大模型现状

GPT-4 的部署时间推迟 6 个月，到今年秋季再发布，但OpenAI并没有采纳这份建议。

而另一方面，在ChatGPT发布之后，谷歌曾表示自己已经具备相似能力的AI大模型，但基于安全考虑并没有及时推向市场。包括OpenAI创始人Sam Altman和马斯克都曾多次在公开场合表达了对AI大模型和人工智能的担忧，表示应该更谨慎地对待大模型的市场化。

目前由谷歌投资的，能够对标OpenAI的另一家AI初创公司Anthropic其实就是因为这样的理念不同，而从OpenAI出走并自立门户的。

当然，在激烈的市场竞争下，即使曾经相对谨慎的谷歌也似乎忘记了这条担忧，并在3月7日报复性砸出5620亿参数大模型，甚至能够控制机器人运动。

目前，以微软和OpenAI为代表，美国AI大模型正在积极推动产业应用。微软早在2月份就宣布将会在全线产品接入ChatGPT，并以几乎一周一个产品的速度向外更新。

从New Bing到加入最新功能Copilot的Microsoft Teams正在搅动全球的产业变革。如果说美国是最厉害的大模型“老炮”，那日本可能就要沦为这次排名的“吊车尾”。

日本的落后其实要从上个互联网时代讲起。我们盘点世界AI大模型领域的关键角色会发现，无论是中国的BAT，韩国的Naver，还是美国的谷歌、亚马逊，他们都是互联网时代的巨头。

一方面，这些企业通过互联网业务积累了大量的高质量数据；另一方面，他们在自身业务推动下建立了完整的云计算体系。但盘点之后我们发现，整个日本既没有叫得出名字的互联网巨头，也没有拿得出手的云计算厂商。

目前，日本的即时通讯软件来自韩国的LINE，云计算业务也被美国企业长期把持。

2022年，日本云计算市场份额约占全球的4%，排名第四。但日本云计算市场的主要竞争者却是美国的三大云巨头亚马逊、微软和谷歌，它们在日本的市场占有率已经达到60%~70%。

除此之外，日本其实还面临许多其他问题，比如由于半导体产业的衰落，让日本在本应成为最大优势的AI芯片领域缺位；比如作为一个小语种国家，日语面临和中文一样缺乏语料的问题

**在这样的背景下，日本在AI时代其实早就丧失了自主权。**所以我们盘点日本的AI大模型，会发现它们大多具有美国或者韩国色彩。

比如日本最早公开上线的NLP大模型是2020年发布的NTELLILINK Back Office NLP，当时它能实现如文档分类、知识阅读理解、自动总结等功能。但NTELLILINK Back Office是在谷歌BERT基础上开发的应用，就像中国许多基于GPT-3开发的应用一样。

更有日本血统的生成式AI其实是HyperCLOVA、Rinna 和 ELYZA Pencil，但其中HyperCLOVA 和 Rinna 也都有外国基因。

其中，HyperCLOVA最早是韩国搜索巨头NAVER在2021年推出的，其日本版是由NAVER和其子公司LINE（韩国软件在日本经营）一起研发。但HyperCLOVA确实是第一个专门针对日语的大语言模型，其通过爬取日本的博客服务来获取训练数据，并在2021年举行的对话系统现场比赛中获得了所有赛道的第一名。

基于HyperCLOVA，LINE也推出许多应用，比如聊天机器人CLOVA Chatbot、图像识别CLOVA OCR和科洛瓦演讲CLOVA Speech等等。HyperCLOVA拥有820亿参数，目前正计划通过超100亿页的日文数据作为学习数据将模型规模扩大到1750亿。日本的另一个AI大模型Rinna则与微软有关，Rinna最早是微软日本研发的一款聊天机器人，类似于国内的小冰（之前叫微软小冰，目前已独立运营）。

2021年8月，Rinna发布了一个名为GPT2-medium的模型，然后又在次年推出了日本版的GPT-2，参数达到13亿。日语版GPT-2与GPT-2的区别在于，GPT-2采用的是英文语料，而日语版GPT-2是基于日语语料训练。目前，Rinna的日语版GPT-2和HyperCLOVA已经是日本参数规模最大，最具代表性的大模型了。

当然，日本也有一些真正土生土长的大模型，比如2022年3月，由东京大学松尾研究所的AI初创公司 ELYZA Co., Ltd.推出大语言模型，它以产品“ELYZA Pencil”的方式推向市场。输入几个关键字，ELYZA Pencil可以在大约 6 秒内创建三种类型的日语新闻报道、电子邮件或简历。日本政府其实也在想办法扭转这种局面，比如2022年5月，日本政府计划将云计算服务列为涉及国家安全的“特定重要物资”，并将加强日本本国的“国产云”，但执行下来其实收效甚微。

毕竟无论是互联网还是云计算都是规模经济，需要有足够的市场容量才能产生经济效益。这也导致日本互联网和云计算无论是在全球市场，还是在本土市场都缺乏充足的成长空间。

但即便如此，日本市场也在积极做着大模型的应用的研究。

比如2022年5月，东京大学和 Google Brain 的一个研究团队发布了论文《Large Language Models are Zero-Shot Reasoners》，解决了大模型0样本学习的部分问题。

而在日本的互联网上，日本网友也在积极调用GPT-3的API，尝试开发自己的独特应用。此外，在刚刚举行的英伟达GTC 2023上，英伟达与日本三菱联合打造了日本第一台用于加速药研的生

day

ChatGPT启示录系列：万字长文解码全球AI大模型现状

day