数据预处理任务主要包括数据清洗数据集成数据转换和数

据脱敏等经过这些步骤y我们可以从大量的数据属性中提取

出一部分对目标输出有重要影响的属性y降低源数据的维数y

去除噪声y为数据分析算法提供干净准确且有针对性的数据y

减少数据分析算法的数据处理量y改进数据质量y提高分析效

率。

数据采集y又称 数据获取

y是数据分析的入口y也是数据分

析过程中相当重要的一个环节y它通过各种技术手段把外部各

种数据源产生的数据实时或非实时地采集并加以利用。