# 币圈核武器：Social Data聚合器

By [Panda](https://paragraph.com/@pansight) · 2022-02-27

---

> 『如何从煤渣里面寻找金矿？ --Panda Media』

![](https://storage.googleapis.com/papyrus_images/dd013cbb23c74069e6613fdeb395560507b8c890fcf1faef5c18c3efd4b684ab.jpg)

我们每天可以从互联网上获取到海量的信息，但是什么样的信息是有价值的？什么样的信息是真实的？什么样的信息是即时性的？这个就是Panda Media正在做的事情，也是一个DAO版的区块链媒体信息聚合器。因为很多人对Panda Media不太了解，接下来我会阐述一下它是如何工作的，如何确保信息的即时性，有效性，可溯源性和它未来可以做的事情。

信息源的筛选
------

你们每天会看多少信息？10条？20条？还是…..成千上万条？信息多种多样，如何挑选高效的信息源，这个是我们首先需要做的。针对SEC官网，Coindesk，交易所官网等这些固定网站，基本就是执行一个爬虫程序，设置定时任务作为提醒。但是社交数据如何挑选高效的信息源？

我们知道twitter上有很多人买粉，如果单独看粉丝数据，肯定是不准确的。也有一些人的twitter账户发布了大量的抽奖推文，获得了海量的粉丝，但是抽奖推文不能算作是高效或有价值的信息。这里我们使用的数据的交叉对比分析。是不是有点难理解？没关系，我会用简单的语言解释清楚。

首先我们用手工的方式，获取了币圈数千个粉丝数大于1万的账户。然后，我们会做交叉对比，查看这些账户关注了谁，也就是这些KOL关注了谁，他们关注的对象，将会是我们关注的重点。

![数据源获取简单解释](https://storage.googleapis.com/papyrus_images/22136609b2dd084a4f49330a04241e4fdf8c42710eaae0feef52c39716341830.png)

数据源获取简单解释

再根据他们『关注对象』的『关注对象』，进行第三次递归查询。这样，我们就可以获取到一个基本准确的信息源列表。

![信息源](https://storage.googleapis.com/papyrus_images/8c98e527515e8b07ed25b009d7c3cbc01b7f7d601021575ea57133c6349f0577.png)

信息源

过程看起来挺简单的，就是写模型和调取接口有些复杂，也搞了三四天。有个简单的案例，大家可以看一下，里面只做了一级过滤，但是也非常精准了。

[https://twitter.com/hellopandadao/status/1477882116851441665](https://twitter.com/hellopandadao/status/1477882116851441665)

信息索引和分析
-------

当信息完成筛选后，则进入了索引阶段。每个小时，我们会获取数千条有价值的信息。在未来，这个数据量会越来越庞大，为了高效的对信息检索，我们需要构建高性能的数据索引方案。这里主要采用了MySQL + Elasticsearch + Redis方案，我这里简单做个解释，不会很复杂，不懂技术的也能看懂。后期可以增加IPFS和AR方案，进行数据的灾备处理。 MySQL：数据存储 Elasticsearch：数据索引（增加数据检索速度） Redis：内存高速索引 IPFS和AR：数据灾备处理

![数据存储和索引](https://storage.googleapis.com/papyrus_images/006597adea6fbd78a663041242b455ec043a4919028be2bba65e0b482404d70b.png)

数据存储和索引

总之就是给数据的索引速度提高了数个量级，可以支持百亿级别的数据检索，可以在很短的时间内得到查询结果。同时还可以基于Elasticsearch，构建一个分词系统，这样我们就可以得到全网币圈的舆情数据。

分词系统很好理解，大家不用理解的过于复杂。比如一句话，我需要给这句话拆解成不同的词汇进行存储，这样才能做全网的注意力分析或舆情分析。目前在Elasticsearch用的比较多的是IK分词器，我们在这块会输入收集的一些词汇列表，后期也许可以靠AI算法对分词系统进行升级，支持更多的语言和更高的精准度。

DAO模式对信息进行审核和优化
---------------

目前我们已经完成了信息的筛选，优化和存储，但是里面还是会存在一些无价值信息。这里有个点很关键，什么样的信息是有价值的？每个人对于信息价值的判断标准不同。针对这个模块，我们采用了DAO模式对信息进行二次优化和审核。

PandaDAO会拥有数百乃至数千位审核员，审核员的主要工作，就是用零散的时间，完成对信息重要程度的评分和打上标签（标签功能应该在第二期上线）。这样就可以获取到一个信息重要程度的平均值。以量来弥补质的不足，尽量达到100%精准。

![](https://storage.googleapis.com/papyrus_images/b9af309c551f1c52a381968b698cb74aef58015f7cbdfe96af0c2f2ecafe2e2b.png)

针对审核员还有一个单独的系统，用作审核员的贡献值计算。审核员的主要贡献者来源于：

1.  信息的评分的准确度（综合评分偏差值）
    
2.  标签准确度（综合标签偏差值）
    
3.  信息评分的即时性（信息评分速度）
    
4.  信息评分的数量（评分数量）
    

基于以上四个唯独的数据，我们可以构建一个黑盒贡献值计算数据模型，对审核员的贡献值进行计算。得到每个审核员的贡献值占比，就可以知道每个审核员可以claim的Token奖励在多少。也许会有部分人，采用机器刷分的方式进行攻击，这个我们之前有考虑过，在WAF和数据模型上有做了这个防御。

币圈舆情系统
------

目前我们已经有了精准的数据源，用户可以查阅到每条信息的源链接，同时也知道信息的质量，标签等等。接下来可以开展分词系统的应用了，也就是币圈舆情系统，或者叫做注意力监控系统，用作全网币圈的关键词数据监控。

在对所有的信息进行分词后，我们可以知道每个词汇出现的时间点和源头，然后进行去重排序的方式，可以知道每个词汇出现的频率，从而可以计算出当前甚至未来互联网上会爆发的舆情线索。

总结
--

目前整个系统的大概架构如下

![Panda Media](https://storage.googleapis.com/papyrus_images/e8eecde627a06832859947e2dbed1d68ec4841b150f7ed07143805cc41ff34b7.png)

Panda Media

这个只是其中一个产品线，当我们积累海量的数据后，如果在加上AI的计算，可以使得分词系统更加完善，也可以更加准确的判断出市场情绪，或许可以提前预知很多我们意想不到的东西，比如你要买某个币种，突然AI给你提示这个币种未来的舆情走向，哈哈哈！但是这个是后话。

Panda Media的存在，最大程度上避免了欺诈信息的存在，不会说你给钱就给你上信息。所有信息源都是基于数据模型这种黑盒方式获取，信息的排序由庞大的审核员团队决定。同时每条信息都是可溯源的，方便研究员，交易员，项目方等快速查询到信息的源头。在获取海量的信息后，分词系统可以快速的判断市场注意力和舆情指标，用户也可以快速规避风险或者抓住机会。

Panda Media只是PandaDAO其中一个产品线，除此之外，我们也在构建DAO的Ve合约，claim合约，DAO贡献值计算模型，未来还有很多社区提议做的产品，这个只是沧海一粟。

> 『what people want, what pandas build』

PandaDAO官网：
-----------

[https://www.pandadao.info/](https://www.pandadao.info/)

里面包含了白皮书，融资页面，团队信息，多签人信息等，欢迎查阅~

---

*Originally published on [Panda](https://paragraph.com/@pansight/social-data)*