Skip to content

kenzosakiyama/text_clustering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

text_clustering

Repositório destinado a armazenar scripts relativos a algoritmos de clusterização de textos, baseados em representações densas.

Utiliza-se a seguinte rotina para a realização de agrupamentos:

  1. Dada uma coleção ".csv" de textos de entrada (já processados conforme a necessidade da tarefa), gera-se representações densas baseadas em Transformers (sentence-transformers).
  2. Calibra-se os parâmetros do método de redução de dimensionalidade UMAP e do método de agrupamento HDBSCAN visando maximizar a métrica DBCV, a qual é utilizada para avaliar a qualidade dos agrupamentos baseados em densidade de exemplos.
  3. Utiliza-se os parâmetros obtidos para gerar clusters para posterior análise.

A Figura a seguir apresenta uma visualização 2D de um conjunto de tweets clusterizados seguindo a rotina descrita acima.

Tweets clusterizados via UMAP+HDBSCAN

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published