现在公司是在海外做即时配送的,老板要我优化现在的实时统计 job ,
要监控 100000 骑士当天送单时长,多单重叠会有些特殊逻辑;
计算每个骑士当天下线时间;
计算当天每个门店的单履约情况,单子大约 8000000 一天,算这些单子 15 分钟被送达的量,还可能要分品牌、城市、业务线什么的
等等这些实时的统计,还就是想要监控各个业务线、不同状态的单子。用 flink 做可以吗?
现在是用代码 job 算的,比较慢,而且开发起来比较麻烦,需要查各种数据。
1
shishiyi 110 天前
貌似可以
|
2
qweruiop 110 天前
这点数据量,直接 clickhouse 一个查询就出来啦。。。
|
3
kkbear 110 天前
用 flink 做的方法是什么?在实时的流处理里面一直更新统计结果?
|
4
zoharSoul 110 天前
不适合 主要时间窗口太大了
|
9
XyIsMy 108 天前
clickhouse ,doris 物化视图应该可以直接实现
|
10
lingalonely 108 天前
几个问题:
数据给谁看的,给 骑手,给商户,还是给 公司内部,这个涉及数据的查询频率。 数据在哪里,数据查询复杂程度怎么 正常来说 kafka 到 flink 到 mysql 没啥毛病 使用 doris ,greenplum ,ck 这类 MPP 数据库,千万级的数据量也是小儿科,看你们公司的本身架构 |
11
adguy OP @lingalonely 商户骑手公司内部都有,骑手 是看他个人的,商户就看他几个店的,公司内部就看比如某条业务线所有的门店,还有按城市筛选这种。数据查询的频率总体不是特别高。
现在没有这样的数据,都是原始数据,或者是基于原始数据做了简单聚合的结果,查询基本不会很复杂,就是根据一堆条件查出 然后聚合统计 数据量一天单量肯定是 1000 万以下,骑士不超过 10 万。 架构还没想好,大佬有啥建议吗? |
12
loveaeen 108 天前
所以本身数据查询并不慢,慢的是统计分析这一步?
我的想法是 flink 抓取数据后 ETL 到 ES, Doris 都可以吧。 |
13
sleeepyy 108 天前
|
14
lingalonely 107 天前
@adguy
假设你现在的原始数据在 mysql , 一步到位的方式就是 把数据同步到 doris 这类数据库,这种复杂查询很快的,就是 doris 集群的成本需要考虑,看你们公司。至于这种架构,doris 相关官方的 doc 很多。 如果要成本控制,其实看你们数据其实不多,而且大概率以当日数据为主,mysql 其实可以搞定,所以通过同步从库,在从库计算应该可以达到你的需求,历史数据做定时汇总。应该可以解决你们当前的需求 |