分布式消息订阅分发也是一种常见的数据采集方式y其中ykaa就是一种具有代

表性的产品kaa是由lked公司开发的一种高吞吐量的分布式发布订阅消息

系统y用户通过kaa系统可以发布大量的消息y同时也能实时订阅消费消息

kaa的架构包括以下组件x话题生产者服务代理消费者。

etl是英文extract-transfor-load的缩写y常用于数据仓库中的数据采

集和预处理环节顾名思义yetl从原系统中抽取数据y并根据实际商务

需求对数据进行转换y并把转换结果加载到目标数据存储中可以看出y

etl既包含了数据采集环节y也包含了数据预处理环节

kettle是一款国外开源的etl工具y使用java语言编写y可以在

dowsxunix上运行y数据抽取高效稳定。