Forêts d'arbres aleatoires pour le clustering de données complexes
Résumé: Nombreuses méthodes de clustering se basent sur une mesure permettant de quantifier la (dis)similarité entre les objets afin de mettre en évidence des groupes homogènes. Certains algorithmes sont d'ailleurs définis avec une mesure en particulier. D'autres algorithmes laissent plus de liberté quant au choix de la mesure, tels que des algorithmes de clustering hiérarchique. Toutefois, le choix d'une telle mesure n'est pas trivial: il dépend du type de données et requiert souvent une phase de prétraitement, telle que la normalisation des données, de l'élimination des points aberrants ou des variables corrélées. Ce choix est particulièrement délicat dans le cas de données hétérogènes et complexes, telles que des données biomédicales. Nous allons présenter une méthode d'apprentissage de mesures de (dis)similarité basée sur des forêts d'arbres extrêmement aléatoires, qui peut être appliquée sur des données hétérogènes tout en simplifiant (voir éliminant) des phases de prétraitement de données. Nous allons aussi illustrer comment l'adapter à des données complexes telles que les graphes attribués. Les résultats empiriques sur des données synthétiques aussi bien que réelles, montrent que la méthode est compétitive par rapport aux approches bien connues dans des contextes homogènes et hétérogènes.
Quelques réflexions sur le clustering de documents textuels
Résumé : Le clustering est un problème difficile car les classes que l’on souhaite obtenir dépendent en partie d’objectifs propres aux utilisateurs, souvent liés à l’application visée. Ces objectifs implicites sont en général « capturés » à partir de différents types de contraintes qui modifient la fonction objectif du clustering. Les modèles récents d’apprentissage de représentations sont a priori intéressants dans ce cadre car ils permettent de se reposer sur des représentations mieux adaptées au clustering. Nous explorons dans cette présentation plusieurs modèles permettant d’intégrer différents types de contraintes tout en apprenant des représentations mieux adpatées au problème du clustering de documents textuels