Jiangew

在大数据时代，无论是电商、社交、大文娱、广告等互联网领域，还是日活百万级别的互联网应用，很多场景的核心服务日均生产和消费数据都在数亿级别。而在一家小而美的互联网公司做研发时，可能你所负责的服务每天生产和消费的数据仅仅在百万级别或更少。在生产和消费的数据量在百万级别或更低时，无论是数据存储引擎，还是数据同步组件，主流的技术方案在使用过程中性能是非常稳定的。然而，如果数据量增长到数十亿级别的时候，服务的整体技术架构就会面临可用性和稳定性的挑战了。在面临这种挑战的时候，我们自然而然要面对多种异构数据源的海量数据同步问题。但是，目前市面上有应对海量数据存储的NoSQL存储引擎（如：MongoDB、Elasticsearch、Cassandra、TSDB、Clickhouse等），也有应对海量数据离线和实时计算的计算引擎（如：Spark、Sparking Streaming、Flink等），还有应对OLAP场景联机分析处理能力的系统（如：Hive、Presto、Kylin、SparkSQL、Druid、Clickhouse等），就是没有负责多种异构数据源海量数据同步的技术产品。而这就...