Baorui's random thoughts

Subscribe to baorui.eth
Share Dialog
Share Dialog
<100 subscribers
<100 subscribers
本文希望从数据加工的全流程,比较目前的Web 2和Web 3数据,其他的维度暂时不展开。
以Web2为例,数据从产生到发挥价值,要经历哪些步骤?

这里面每个环节都有很多对应的Web2公司,在Web3可能需要重做,尤其是数据的上游和下游,中间同步和数仓环节 倒是可以复用之前的模型,需要的考虑就是是否遵循开源规则。
Web 2:前端(客户端:PC + APP) + 后端(服务端)+ 采买/回传/爬虫等;
Web 3:dapp前端 + (block + evm等)后端 + 链下数据等(chainlink)。

前端数据:一般指用户的行为数据,多为日志形式记录,数据质量不高,数据量巨大,可以分析用户行为,典型场景为曝光点击等,数据一般不可变。
后端数据:一般指服务端所记录的数据,多用数据库记录,如用户自己填写的信息,下单的交易,数据质量高,数据量一般较少,且数据是可变的。
采买/回传/爬虫类数据则是通过其他手段从app以外获得,存储和数据形式差异较大,数据质量一般不高。
举例:如果用户在某平台买了一袋饺子,则会生成两部分数据。从前端来说,用户点击下单的一瞬间,会记录点击数据,用户点击下单按钮会触发后端生成一笔订单,写入服务端数据库。
目前Web 3现状,比较明确的是服务端数据都在链上,前端数据短期应该不会存在链上因为成本太高。目前能帮助数据产生的机会,应该还是围绕链上数据产生,结合区块链模块化的行驶,能帮助每个链产生统一的调用接口,一定是很大的机会。以Celestria为例,帮助L2完成数据DA验证,也是个标志。
针对前端,目前还看不到这种趋势,甚至用很多Web 2工具可以实现 ,比如Mirror使用了Google Analytics,比如神策(应该)是可以给Stepn分析埋点数据的。
针对后端,数据比较直接,直接从链上读取,但是目前也仅仅对几个公链有了一定的覆盖。侧链、跨链、L2等数据基础设施还较为缺乏。针对evm的数据,针对合约的数据,目前没有看到专门的公司在支持,dune可能有一些侧面的场景。
数据同步指把一些日志数据或者在数据库里的数据,通过一定的方法存储在大数据的存储框架下,形成大数据分析的基础。一般来说,日志数据会准实时同步,离线数据会t+1同步。这部分目前看Web 2 & Web 3应该是一样的,可以参考开源解决方案sqoop或者阿里的dataX。机会应该不大,能想到的一个方面在于不同链之间的出块时间是不同的,如何去协调链和链之间 统一同步。

目前看数仓体系在Web 2 & Web 3应该是一致的。数据的存储和计算应该还是开源模型,复用大数据相关计算与存储。
数据仓库的方法论应该还是一样,目前看维度建模或者三范式的建模方式不会有太多变化,同样适用于区块链场景。只不过现在链上数据场景太单一了,不太需要数据仓库的设计,或者说 价值不容易体现。
数据分层上来看,依然适用。虽然区块上已经有完整的链上数据,但由于链的迭代与变更,还是需要维护一套中间层,保证下游的使用和消费。
针对DWD/DWS来说,提高覆盖程度,保证数据质量,整合链内生态的数据肯定是一个方向。目前看起来dune正在做这方面的事情,但是感觉dune离用户有点远,提供的都是特别基础的数据。
针对应用层,要结合具体数据产品具体分析。

数据展示和分析看起来和Web 2应该是同一套方案,最多后续出了开源免费版?Dune目前就是在做这件事。标签来说,可以给地址做打标,目前Nansen在做的事。
数据质量 - 异动报警,有公司在做,目前形态类似whale alert;
数据调度 - 同web2;
元数据 - 同web2;
数据权限 - 就链上数据来说都是公开透明的,没看到这一部分的探索。
目前看来还绝对处于基础设施的早期,数据上丰富度和覆盖度都不够,也许创业公司的方向还是把某个小领域的数据补齐,做透同时再慢慢扩大范围。
目前数据同学面对Web 3数据,有种有力使不出的感觉,碍于数据的丰富程,数据分析 ,数据建模等工作都比较受限,换句话说,长期价值在创业团队可能并不急需。
本文希望从数据加工的全流程,比较目前的Web 2和Web 3数据,其他的维度暂时不展开。
以Web2为例,数据从产生到发挥价值,要经历哪些步骤?

这里面每个环节都有很多对应的Web2公司,在Web3可能需要重做,尤其是数据的上游和下游,中间同步和数仓环节 倒是可以复用之前的模型,需要的考虑就是是否遵循开源规则。
Web 2:前端(客户端:PC + APP) + 后端(服务端)+ 采买/回传/爬虫等;
Web 3:dapp前端 + (block + evm等)后端 + 链下数据等(chainlink)。

前端数据:一般指用户的行为数据,多为日志形式记录,数据质量不高,数据量巨大,可以分析用户行为,典型场景为曝光点击等,数据一般不可变。
后端数据:一般指服务端所记录的数据,多用数据库记录,如用户自己填写的信息,下单的交易,数据质量高,数据量一般较少,且数据是可变的。
采买/回传/爬虫类数据则是通过其他手段从app以外获得,存储和数据形式差异较大,数据质量一般不高。
举例:如果用户在某平台买了一袋饺子,则会生成两部分数据。从前端来说,用户点击下单的一瞬间,会记录点击数据,用户点击下单按钮会触发后端生成一笔订单,写入服务端数据库。
目前Web 3现状,比较明确的是服务端数据都在链上,前端数据短期应该不会存在链上因为成本太高。目前能帮助数据产生的机会,应该还是围绕链上数据产生,结合区块链模块化的行驶,能帮助每个链产生统一的调用接口,一定是很大的机会。以Celestria为例,帮助L2完成数据DA验证,也是个标志。
针对前端,目前还看不到这种趋势,甚至用很多Web 2工具可以实现 ,比如Mirror使用了Google Analytics,比如神策(应该)是可以给Stepn分析埋点数据的。
针对后端,数据比较直接,直接从链上读取,但是目前也仅仅对几个公链有了一定的覆盖。侧链、跨链、L2等数据基础设施还较为缺乏。针对evm的数据,针对合约的数据,目前没有看到专门的公司在支持,dune可能有一些侧面的场景。
数据同步指把一些日志数据或者在数据库里的数据,通过一定的方法存储在大数据的存储框架下,形成大数据分析的基础。一般来说,日志数据会准实时同步,离线数据会t+1同步。这部分目前看Web 2 & Web 3应该是一样的,可以参考开源解决方案sqoop或者阿里的dataX。机会应该不大,能想到的一个方面在于不同链之间的出块时间是不同的,如何去协调链和链之间 统一同步。

目前看数仓体系在Web 2 & Web 3应该是一致的。数据的存储和计算应该还是开源模型,复用大数据相关计算与存储。
数据仓库的方法论应该还是一样,目前看维度建模或者三范式的建模方式不会有太多变化,同样适用于区块链场景。只不过现在链上数据场景太单一了,不太需要数据仓库的设计,或者说 价值不容易体现。
数据分层上来看,依然适用。虽然区块上已经有完整的链上数据,但由于链的迭代与变更,还是需要维护一套中间层,保证下游的使用和消费。
针对DWD/DWS来说,提高覆盖程度,保证数据质量,整合链内生态的数据肯定是一个方向。目前看起来dune正在做这方面的事情,但是感觉dune离用户有点远,提供的都是特别基础的数据。
针对应用层,要结合具体数据产品具体分析。

数据展示和分析看起来和Web 2应该是同一套方案,最多后续出了开源免费版?Dune目前就是在做这件事。标签来说,可以给地址做打标,目前Nansen在做的事。
数据质量 - 异动报警,有公司在做,目前形态类似whale alert;
数据调度 - 同web2;
元数据 - 同web2;
数据权限 - 就链上数据来说都是公开透明的,没看到这一部分的探索。
目前看来还绝对处于基础设施的早期,数据上丰富度和覆盖度都不够,也许创业公司的方向还是把某个小领域的数据补齐,做透同时再慢慢扩大范围。
目前数据同学面对Web 3数据,有种有力使不出的感觉,碍于数据的丰富程,数据分析 ,数据建模等工作都比较受限,换句话说,长期价值在创业团队可能并不急需。
No activity yet