您好,大佬,有个疑问,想请教您下,若您有空了,请回复下,谢谢!疑问如下:
cluster_list = list(
[list(
filter(lambda x: np.min(self.leaf_deviation_score[]) <= self.leaf_deviation_score[x] <= np.max(
self.leaf_deviation_score[]), np.arange(len(self._f)))
)
for _ in cluster_list]
)
在整个数据集中,若满足deviation-score的点,都会进入类中。这样做的理论是什么?
若这样子做非常好,个人感觉那倒不如直接在第1步就用deviation-score而不是偏差?
个人感觉去掉再聚类这一步(去掉上面代码),是不是更好些?这样完全是根据第一步的偏差以及第二步的deviation-score来判断叶子节点是否是异常(找出从哪些点出发,去找事件的根因)。
麻烦作者,给出解释,谢谢!