看到阿里旺旺的反垃圾系统产品案例,前期是关键词+手工处理,直到2011年才上线真正的反垃圾系统,分为3个溢出池:
最底一级的——【离线系统】天为单位的对历史数据智能学习、抓取、比对识别,处理掉这个时间维度的异常并向未来世界提供宝贵的特征库,解决大部分准确性和覆盖率
中间级的——【准实时系统】小时为单位对天累积数据进行上面动作,站在正在发生的维度,提供在线系统的参考值,面向未来时间实现可能的支撑
表层级的——【在线系统】实时的对消息进行基于底层系统的特征值比对识别
这个产品设计的拆分,处理主体:id、动作和消息,然后需要比对特征库,一个问题拆分城3个问题解决,将准确性、覆盖率、及时性综合实现。
思路非常巧妙,试想如果不进行拆分,那意味着随时对历史数据累积跑批,然后处理特征值,实时消息即时比对,资源估计被吃的够呛。
这可是类似于微积分的模式了,而一分三,则像是对一条曲线覆盖面积求解时候,采用直方的模式进行划分计算,不用大量的积分动作、同时划分清晰、数量可观,在满足需求的精度范围就可以收工。其实上面那个反垃圾系统最小可控时间单位是小时。