1.在聚类分析的时候应基于【具体的业务场景】进行选择变量,选择影响和关联较大的变量。
2.按照多维度,【相关性】尽量低的原则。在计算距离时,每一种纬度都同等重要,应该尽量线形独立。
3.如果变量变量间存在较高的线性关系,计算距离时还会重复贡献。预处理变量中,如果有缺失值则无法计算变量的距离,在缺失值填充时用【0或均值,等等】填充。
4.在异常值处理时一般情况下选择【抛弃】。在大部分情况下会做分位点的处理。
5.字符型变量的转换处理时要考虑到商业上的意义。一种方法是变成离散型变量,另一种是处理成零一变量。