# 
一文读懂 Web3 数据赛道：独角兽、破局者与未来之星

By [kevervip(L,3)](https://paragraph.com/@kevervip) · 2022-08-12

---

![](https://storage.googleapis.com/papyrus_images/6f5f70a929b34607689bf09291393137dd897232870df6257bd5431b40cd6186.jpg)

本文仅供学习交流，不构成任何投资参考。搬运By onestar.eth

如果说2021年科技领域的热词是元宇宙，那么今年的席位大概率会留给“Web3”，一时之间，各种科普、分析、展望、质疑纷至而来，这个名词成为了当之无愧的流量密码。 在各种各样的观点里，虽然大家对Web3的定义不尽相同，但有一个共识是，Web3能够让用户对自己的数据拥有所有权和自主权，而这也是推动 Web2 向 Web3 进化的关键因素。随着我们的生活与工作被更加彻底的数字化，即，人类人一起活动都将以数据流呈现时，这种数据权利的让渡就显得尤为关键。 所以我们有理由相信，Web3的数据赛道会成为新秩序下最重要的组成部分，拥有广阔的发展空间，而站在创业者的角度来讲，由区块链技术驱动的去中心化网络，其本质是一个开放、无许可的分布式数据库，数据方向天然存在许多需要被服务的场景，选择它大概率能够在正确的科技树上进化和生长。在今天这篇文章里，我会为大家梳理现有 Web3 数据赛道的市场结构及典型玩家，简单解读它未来发展趋势，并分享一些 SevenX 的投资判断。 本文核心观点：

1.  Web3打破了数据孤岛，同时将数据权利归还于个体用户，用户可随时携带，可任意与应用发生组合与交互。
    
2.  Web3数据赛道的结构可以被划分为四个层次，分别为数据来源，数据获取、数据查询与索引、数据分析与应用。而项目的去中心化程度、可扩展性、所提供的服务的速度与准确度、场景的不可替代性等是我们判断项目的主要维度。
    
3.  随着数据市场参与者的逐渐丰富以及数据本身的沉淀和积累，数据的价值会大幅提升，但如何在利用数据产生更大价值的同时更好的遵循区块链原教旨精神保护隐私，是另外一个重要议题。
    
4.  通过多维数据向量来构建去中心化的声誉体系是Web3数据市场下一个最重要的用例之一，基于声誉体系，各类金融场景比如信用借贷的解锁成为可能。 当我在谈Web3数据的时候，我在谈什么 人类文明在发展的过程中会产生大量的数据，它们或被遗忘，消失在时间的长河中，或被记录，沉淀为被人知晓的历史，而互联网的出现，则让人类对数据的记录有分享能够以一种效率更高、容量更广的方式来进行，数据的价值由此进一步被发掘，其重要性也逐渐成为整个社会的共识，在《经济学人》2017 年 5 月刊的封面故事里，数据更是被定义为“世界上最具价值的资源”。 但随着在互联网上沉淀的数据越来越多，一个根本性的问题开始显现：个体产生的数据创造了价值，但这些数据并不归属于个体，其创造的价值也没有分配给个体。于是人们向往一种新的秩序，于是Web3应运而生。 那Web3是如何重塑数据价值的呢？主要有三个方面： 让数据公开透明且不可篡改。 在 Web2 的世界里，应用们通过提供免费的服务来获得用户数据，然后通过垄断这些数据来牟利并建立自己的商业护城河。数据存储在他们的中心化服务器上，外界无法访问，也无从得知哪些数据被存储，以什么方式和颗粒度被存储，而且一旦这些应用遭遇攻击或者主动地结束服务，用户的数据可以在一夜之间化为乌有。但是在区块链技术作为底层的 We3 框架下，链上数据实现了公开、透明及不可篡改，这是它们能够被更好使用的前提。 打破数据孤岛，提升互操作性。 每当使用一个新的应用，不需要不厌其烦地走一遍注册流程，这应该是 Web2 数据孤岛所造成的负面影响在用户侧最直观的表现。因为各个应用都拥有自己的数据库，彼此独立，无法打通，所以造成了这种重复性采集。同时，用户的行为数据被碎片化地掌握在不同的应用手中，既无法跨平台复用，也不能进行整合。而在 Web3 的世界中，广义上来讲，用户只需要一个地址就可以访问和使用各类去中心化应用，而这个地址所发生的每一笔链上交互，其对应的数据都可以被组合起来，无需任何应用许可。 通过代币经济实现更好的价值分配。 数据创造的价值如何能分配给产生这些数据的个体，是 Web3 面向数据要回答的重要议题，而不断演进的代币经济可能是实现这种价值重新分配的核心手段，这一点任何曾经在各类空投中收益的用户应该都有非常直观的感受。在Web3的语境里，用户与任意应用的交互行为所积累和产生的数据，都是价值捕获的载体。 其实，Crypto市场本身的进化也在很大程度上驱动了 Web3 数据赛道的发展。供给端，多链宇宙的成型，各类应用的爆发，NFT的蓬勃发展，以及新用户大大量涌入，都让数据的种类和数量有了指数级增长；需求端，需求的多维化和复杂化让围绕数据的获取、整理、访问、查询、加工、分析，催生出了无数有想象力的场景和机会。 Web3数据赛道结构 Web3数据赛道的结构可以被划分为四个层次，分别是最底层的数据来源，第二层的数据获取，第三层的数据查询与索引，还有最顶层的数据分析与应用。 第一层，数据来源 数据来源整体分为链上和链下数据。链上数据主要包括：链相关数据（如哈希、时间戳等）、转账交易、钱包地址、智能合约事件、以及一些保存在缓存中的数据（比如以太坊mempool 里面的排队数据），这类数据被去中心化的数据库所维护，可靠性由区块链的共识来保证。另外，存储也是链上数据的主要来源，目前集中在IPFS, Arweave, Storj等协议。链下数据则主要包括中心化交易所的数据，社交媒体数据，GitHub数据，以及一些典型的 Web2 数据，比如PV、UV、日活、月活、下载、搜索指数等等。 近两年来，数据种类和数量都有指数级的增长，但目前就数据源这个层面，还存在三个问题：
    
5.  部分公链采用轻节点模式，导致链上数据不完整，比如Solana。 2.存储层因为数据量大产生拥堵。我的好朋友 REVA 曾经将她的 NFT 作品上传到IPFS，但是当她想调用的时候，却用了2个小时都没能将一个几百兆的文件下载成功（想一下两个小时都没能把一部标清电影下载下来的崩溃）。不过市场上已经有项目在着手解决这个问题，比如SevenX 的 Portfolio：Meson Network。它是一个去中心化的 CDN 网络，通过挖矿的形式聚合闲置服务器，调度带宽资源并将其服务于文件以及流媒体加速市场，对象包含传统网站、视频、直播及区块链存储方案，目前已经支持AR、IPFS等。
    
6.  链下数据缺乏确保其真实性的方法，数据维度也需要被拓展。 第二层，数据获取 这一层最主要的玩家就是节点服务商。如果选择通过自己搭建节点的方式来获取链上数据，需要较高的时间、金钱和技术成本，还可能会面临内存泄露、磁盘空间不够等问题，而节点服务商则大大优化了这个流程。作为整个数据赛道的基础设施，节点服务商是最早参与进来的玩家，也诞生了估值百亿美金的独角兽。 目前比较有名的服务商有Infura，Quicknode，Alchemy和Pocket，开发者和创业者在选择的时候主要会考虑覆盖链的数量、商业模式以及附加服务的多样性（是否有类CDN服务？是否可以访问mempool数据？是否可以提供私有节点？）等因素，而Infura在之前不止一次出现过的节点宕机事件，是否去中心化也是大家选择的标准之一。（2020 年 11 月，Infura 没有运行最新版本的 Geth 客户端，而某些特殊的交易触发了这个版本的客户端的 bug，随后 Infura 宕机了并造成了一系列的连锁反应：主流交易平台无法充提 ERC-20 的 Token，MetaMask 无法使用等等。） 今年2月8日，Alchemy 以 102 亿美元估值完成了 2 亿美元融资；Infura 母公司 ConsenSys 在去年也完成 2 亿美元融资，估值 32 亿美元；截至2022年3月，Pocket的流通市值达到了32.8 亿美元。 第三层，数据查询与索引 在直接与各类公链进行交互的节点服务商之上，就是提供数据查询和索引服务的市场参与者。他们通过对数据的解析和格式化，让原始数据变得更容易被访问和使用。 The Graph The Graph是一个去中心化的链上数据索引协议。2020 年12 月主网上线，到目前为止可以支持对 30多个不同网络的数据进行索引，包括 Ethereum、NEAR、Arbitrum、Optimism、Polygon、Avalanche、Celo、Fantom、Moonbeam、Arweave 等。 它与传统基于云服务的 API 类似，区别在于传统的 API 是由中心化的公司运营；而链上数据索引则由去中心化的索引节点组成。借助于 GraphQL API，用户可以通过 subgraph （子图）直接访问获得信息，快速并且节约资源。The Graph 设计了 GRT 代币机制，以鼓励多方参与自己的网络，涉及到委托人（Delegator）、索引者（Indexer）、策展人（Curator）、开发者（Developer）。业务的流转简概括就是：用户提出查询需求，索引者运行 The Graph 节点，委托人向索引者质押 GRT 代币，策展人使用 GRT 来指引哪类子图有查询价值。 第四层，数据分析与应用 这一层是直接面向C端用户（广义上的C端，不仅仅指个人用户），交付拿来即用的数据产品。它们帮用户完成了所有繁重负责的工作，直接呈现从自己的数据方法论角度出发，为用户提供数据价值。这一层的参与者，可以按照数据的类型大致划分为针对链上交易的，针对代币价格的，针对DEFI协议的，针对DAO的，针对NFT的，针对安全的，针对社交的等等，当然也有越来越多的项目部聚焦于某一类数据，旨在成为一个更加综合型的数据分析平台。 区块链浏览器 这可能是出现的最早的数据应用层产品，让用户可以直接通过 Web 页面搜索链上信息，包括链的数据，区块的数据、交易数据、智能合约数据、地址数据等。 Glassnode & Messari & [CoinMetrics.io](http://CoinMetrics.io) 区块链数据和信息提供商，从不同角度 &指标为投资者提供链上数据和交易情报，输出市场分析洞察和研究报告。 CoinGecko & CoinMarketCap 代币分析工具，用于观察和追踪代币价格、交易量、市值等。 Token Terminal 用传统的金融指标，比如P/S比率、P/E比率和协议收入等分析 DeFi项目。目前也支持对NFT交易市场的分析。 DeFiLlama 深耕 DeFi TVL 的数据分析平台，支持107个 Layer1 & Layer2 网络上的，近千个 DeFi 协议的TVL，可以用不同的指标和时间维度分类对比、查看。目前 DeFiLlama 也同样支持 NFT 的分析，关注不同链上不同交易市场的交易量和 Collections 种类。 NFTSCan & NFTGO 专注于 NFT 市场的数据平台，提供数据分析和巨鲸钱包监控等服务，旨在帮助用户更好地追踪和评估 NFT 项目和资产的价值，帮助做出明智的投资决策。 Nansen 如果用一个词来概括 Nansen，那一定是“标签”。Nansen 已累计分析了5千万+的以太坊钱包地址和它们的活动，将链上数据与包含数百万个标签的数据库相结合，帮助用户更好地寻找信号和新的投资机会。Nansen目前是Web3数据分析和应用层的最明星的项目之一，去年 12 月以 7.5 亿估值完成了 7500 万美元的融资。 Chainalysis 被称为“链上FBI”的 Chainalysis 成立于2014年，是一个企业数据解决方案公司，通过链上数据监控和分析，以帮助政府、加密货币交易所、国际执法机构、银行等客户遵守合规要求，评估风险，并识别非法活动。去年六月，Chainalysis 宣布获得1 亿美元 E 系列融资，估值达到42 亿美元。 Footprint Analytics Footprint是一个综合型的数据分析平台，用于发现和可视化区块链数据。与其他应用相比，Footprint使用门槛更低，对新手用户非常友好。平台上提供丰富的数据分析模板，支持一键分叉，帮助用户轻松创建和管理个性化的仪表板，同时 Footprint 也有对链上其他钱包地址及其活动的标记，用户可以通过维度丰富的指标来进行投资决策。 Zerion & Zapper 最早出现的 DeFi 投资组合追踪和管理器，目前同样都新增了对 NFT 资产的支持。 DeepDao DeepDAO 是聚焦于各类 DAO 组织的综合数据平台，用户可以轻松查看国库金额及变化、国库代币分布、治理代币的持币情况、组织活跃成员、提案及投票情况等。DeepDAO 还同时提供了数十种用于创建和管理 DAO 的工具。 在这一层的应用还有很多，在此就不一一列举。 其实SevenX 从很早就开始关注数据赛道，并投资了Debank, Zerion, Footprint, Koii, DeepDao, RSS3, CyberConnect 以及 Go+。在筛选项目的过程中，我们有一些心得和判断，在这里简单分享一下： 总得来说，应用层流量不再是核心壁垒，用户随时有可能因为其他产品的易用性，更新速度等因素快速迁移，而具备数据提供能力并且与用户形成数据通道闭环的产品反而会更具有竞争力，但是在壁垒未形成前流量产品具备反哺的可能性。 我们如何进行评估呢？有以下5个维度：
    
7.  场景选择： （1）是否有需求，且需求的成熟度是否足够或者未来会不会发生？ 项目在寻找需求时候要判断需求的成熟度或者阶段。还是以GoPlus为例，在DeFi世界“安全感”已经是必需品，安全几乎是所有人都有共识的需求，而这一需求是层出不穷、各种各样且对于普通用户来说很难辨别和防范的安全事故后被激活和逐步成熟的。所以现在大家宁愿多付出一步或者适当花钱去购买更安全的体验。 （2）先做C端还是先做协议？ 我们认为，在场景需求未被完全激发时，应该先做C端产品去寻找用户痛点，不然很容易拿着锤子找钉子。比如GoPlus在早期时候做了Go Pocket钱包，其实就像是样板间，有了样板间其他合作伙伴也更好的理解产品到底在解决什么问题，这就会为之后延伸做协议时的B端获客提供了极大帮助。 之后，SevenX 会重点关注GameFi、DeFi、DAO、NFT、社交、安全等场景。
    
8.  数据能力： 数据获取、结构化等是基本功，但是否拥有基于行业认知的数据能力是关键。
    
9.  C端产品能力： C端产品能力主要看是否可以寻找到受众的迫切性需求作为冷启动方式，且能够有易用性。
    
10.  To B拓展能力： To B的拓展是一个复杂决策流程， 是否能够获取标杆用户，或者能否根据产品定位高效的获取长尾用户，这都是需要考量的。
    
11.  团队背景： （1）垂直赛道web2大场背景，独立运营过一个项目 （2）开源社区经验 （3）快速学习能力，且不带偏见的学习 Web3数据的可能性 随着链上分析的增多，区块链的匿名属性逐渐被打破，例如大家可以根据nansen的标签跟踪大户的交易地址和交易行为，也可通过链上地址识别出某一个地址参与的活动和组织以及链上行为，这让我们的数据暴露在阳光下，失去了选择隐私的权利。而 Nansen 近期表示已经标记超过 1 亿个钱包，这让隐私的需求越发得到重视。 目前的隐私解决方案主要包含的层面为隐私币，隐私计算协议，隐私交易网络、隐私应用等。 如果我们想保护我们的链上交易或者活动选择性发现，或者我们希望过程不可见但结果可见，我们可以选择隐私计算协议，如 Oasis Network 等，常用的技术包括包括零知识证明、安全多方计算、基于现代密码学的联邦学习、可信执行环节（TEE）等。 但是目前的协议可用性较为有限，大部分还属于开发阶段。落地较多的是Secret Network，该公链已经上线跨链桥Secret Bridge、隐私DeFi协议Sienna Network、隐私交易协议 Secret Swap、比特币无信任隐私解决协议Shinobi Protocol等应用。 从2021年下半年开始，头部VC和开发者开始大量涌入隐私赛道，相信随着这个市场的逐渐发展，人们会在如何利用数据产生更大价值的同时更好的遵循区块链原教旨精神保护隐私之间寻找到一个平衡。 最后，再来简单说一下，我们对市场趋势的一个判断：通过多维数据向量来构建去中心化的声誉体系是Web3数据市场下一个最重要的用例之一，基于声誉体系，各类金融场景比如信用借贷的解锁成为可能。 一直以来，借贷都是 DeFi 生态系统的重要组成部分，目前，整个市场的产品类型以抵押借贷（通常是超额抵押）和闪电贷为主，不依赖（或者不完全依赖）抵押物的信用借贷一直被认为是最重要的演进方向，因为信用会造就一个更加自由交流的市场。 然而在 DeFi 中引入信用借贷所面临的最大障碍就是贷款人只面对一个地址，无法有效验证该地址另一端的借款人的偿款能力以及是否有过不良信用记录。一些解决方案试图通过将链下的信用数据引入链上来完成这个目标，但如何保证保证链下数据本身以及在上链过程中真实性的问题，一直没有被很好的回答。 现在，随着链上身份系统的逐渐完善，以及可用于分析的数据和数据分析工具的同步增长，用户在链上创造、贡献、赚取和拥有的东西，都能够逐渐积累成该用户的声誉，从而实现一个地址对另外一个地址有效的信用评估。其实，AAVE背书的 Lens Protocol 其实就是在做这样的事情，用NFT管理数据，为链上无抵押信用贷铺设地基。 虽然已经生长出了百亿美金的独角兽，但Web3的数据赛道才刚刚开始。站在链上应用爆发的洪流之中，每一个比特和字节都在定义你是一个怎样的Web3公民，我们需要寻找新的秩序和范式，共同抵抗新世界的熵增。

---

*Originally published on [kevervip(L,3)](https://paragraph.com/@kevervip/web3)*