text_clustering

Repositório destinado a armazenar scripts relativos a algoritmos de clusterização de textos, baseados em representações densas.

Utiliza-se a seguinte rotina para a realização de agrupamentos:

Dada uma coleção ".csv" de textos de entrada (já processados conforme a necessidade da tarefa), gera-se representações densas baseadas em Transformers (sentence-transformers).
Calibra-se os parâmetros do método de redução de dimensionalidade UMAP e do método de agrupamento HDBSCAN visando maximizar a métrica DBCV, a qual é utilizada para avaliar a qualidade dos agrupamentos baseados em densidade de exemplos.
Utiliza-se os parâmetros obtidos para gerar clusters para posterior análise.

A Figura a seguir apresenta uma visualização 2D de um conjunto de tweets clusterizados seguindo a rotina descrita acima.

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
imgs		imgs
params		params
scripts		scripts
.gitignore		.gitignore
README.md		README.md
cluster_exploration.ipynb		cluster_exploration.ipynb

Provide feedback