Data Infra: Web 3 vs Web2

本文希望从数据加工的全流程，比较目前的Web 2和Web 3数据，其他的维度暂时不展开。

数据加工全链路回顾

以Web2为例，数据从产生到发挥价值，要经历哪些步骤？

这里面每个环节都有很多对应的Web2公司，在Web3可能需要重做，尤其是数据的上游和下游，中间同步和数仓环节倒是可以复用之前的模型，需要的考虑就是是否遵循开源规则。

数据产生

Web 2：前端（客户端：PC + APP） + 后端（服务端）+ 采买/回传/爬虫等；

Web 3：dapp前端 + （block + evm等）后端 + 链下数据等（chainlink）。

前端数据：一般指用户的行为数据，多为日志形式记录，数据质量不高，数据量巨大，可以分析用户行为，典型场景为曝光点击等，数据一般不可变。

后端数据：一般指服务端所记录的数据，多用数据库记录，如用户自己填写的信息，下单的交易，数据质量高，数据量一般较少，且数据是可变的。

采买/回传/爬虫类数据则是通过其他手段从app以外获得，存储和数据形式差异较大，数据质量一般不高。

举例：如果用户在某平台买了一袋饺子，则会生成两部分数据。从前端来说，用户点击下单的一瞬间，会记录点击数据，用户点击下单按钮会触发后端生成一笔订单，写入服务端数据库。

目前Web 3现状，比较明确的是服务端数据都在链上，前端数据短期应该不会存在链上因为成本太高。目前能帮助数据产生的机会，应该还是围绕链上数据产生，结合区块链模块化的行驶，能帮助每个链产生统一的调用接口，一定是很大的机会。以Celestria为例，帮助L2完成数据DA验证，也是个标志。

针对前端，目前还看不到这种趋势，甚至用很多Web 2工具可以实现，比如Mirror使用了Google Analytics，比如神策（应该）是可以给Stepn分析埋点数据的。

针对后端，数据比较直接，直接从链上读取，但是目前也仅仅对几个公链有了一定的覆盖。侧链、跨链、L2等数据基础设施还较为缺乏。针对evm的数据，针对合约的数据，目前没有看到专门的公司在支持，dune可能有一些侧面的场景。

数据同步

数据同步指把一些日志数据或者在数据库里的数据，通过一定的方法存储在大数据的存储框架下，形成大数据分析的基础。一般来说，日志数据会准实时同步，离线数据会t+1同步。这部分目前看Web 2 & Web 3应该是一样的，可以参考开源解决方案sqoop或者阿里的dataX。机会应该不大，能想到的一个方面在于不同链之间的出块时间是不同的，如何去协调链和链之间统一同步。

数据仓库

目前看数仓体系在Web 2 & Web 3应该是一致的。数据的存储和计算应该还是开源模型，复用大数据相关计算与存储。

数据仓库的方法论应该还是一样，目前看维度建模或者三范式的建模方式不会有太多变化，同样适用于区块链场景。只不过现在链上数据场景太单一了，不太需要数据仓库的设计，或者说价值不容易体现。

数据分层上来看，依然适用。虽然区块上已经有完整的链上数据，但由于链的迭代与变更，还是需要维护一套中间层，保证下游的使用和消费。

针对DWD/DWS来说，提高覆盖程度，保证数据质量，整合链内生态的数据肯定是一个方向。目前看起来dune正在做这方面的事情，但是感觉dune离用户有点远，提供的都是特别基础的数据。

针对应用层，要结合具体数据产品具体分析。

数据产品

数据展示和分析看起来和Web 2应该是同一套方案，最多后续出了开源免费版？Dune目前就是在做这件事。标签来说，可以给地址做打标，目前Nansen在做的事。

其他方向

数据质量 - 异动报警，有公司在做，目前形态类似whale alert；
数据调度 - 同web2；
元数据 - 同web2；
数据权限 - 就链上数据来说都是公开透明的，没看到这一部分的探索。

总结

目前看来还绝对处于基础设施的早期，数据上丰富度和覆盖度都不够，也许创业公司的方向还是把某个小领域的数据补齐，做透同时再慢慢扩大范围。
目前数据同学面对Web 3数据，有种有力使不出的感觉，碍于数据的丰富程，数据分析，数据建模等工作都比较受限，换句话说，长期价值在创业团队可能并不急需。

baorui.eth