Performance evaluation of different clustering algorithms for data streams
Fecha
2019-11-04Autor
Jaramillo-Valbuena, Sonia
Augusto-Cardona, Sergio
Aldana, Jorge Alejandro
Metadatos
Mostrar el registro completo del ítemResumen
Many internet-based applications generate data
streams, among others, the financial markets,
computer network, phone conversations, biological and
medical applications. Streaming data presents
challenges in different level that cannot be handled by
traditional database management systems. Reliability,
scalability, durability, lack of structure, response time
are some of them. Motivated by the industry’s need to
obtain useful knowledge from data streams on the fly,
several clustering methods have been proposed. In
particular, in this paper, we compare experimentally 5
state of the art stream clustering algorithms:
StreamKM++, CluStream, DenStream, ClusTree and
ClusCTA-MEWMA. We assess their robustness in the
presence of noisy data. We conduct experiments based
on synthetic datasets. The results show that ClusCTAEWMA
has better performance than the other
algorithms in datasets with noise. Muchas aplicaciones basadas en Internet generan
streams de datos. Algunas de ellas son los mercados
financieros, redes informáticas, conversaciones
telefónicas, aplicaciones biológicas y médicas. El
procesamiento de streams de datos representa
grandes desafíos a nivel de fiabilidad, escalabilidad,
durabilidad, falta de estructura, memoria y tiempo de
respuesta, que no pueden ser resueltos mediante los
sistemas de gestión de bases de datos tradicionales.
La necesidad de obtener conocimiento útil a partir de
streams de datos ha llevado a la construcción de
diferentes métodos de clustering. En particular, en
este documento, se comparan experimentalmente 5
algoritmos de clustering sobre streams de datos:
StreamKM ++, CluStream, DenStream, ClusTree y
ClusCTA-MEWMA. Se evalúa su robustez ante la
presencia de ruido. Los experimentos realizados se
efectúan sobre datasets sintéticos. Los resultados
muestran que ClusCTA-EWMA tiene mejor rendimiento
que los otros 4 algoritmos en datasets con ruido.