Word Embeddings para Saúde

Descrição

Esse  recurso corresponde à três modelos pré-treinados de palavras retiradas de textos médicos do Hospital Nossa Senhora da Conceição de Porto Alegre, RS, Brasil. Foram utilizados 21 milhões de sentenças para criar os modelos das palavras. O resultado são 63 mil palavras com relação semântica e sintática utilizando a biblioteca Gensim, com a função Word2Vec.

Download

Cada modelo foi treinado com os parâmetros:  min_count=100, negative=5. Abaixo tem os modelos treinados com 50, 150 e 300 dimensões por palavra.

Instruções de Uso (opcional)

Para utilizar os modelos, basta carregá-los no Gensim, ou na sua biblioteca Word2Vec.

from gensim.models.word2vec import KeyedVectors
w2v_model = KeyedVectors.load_word2vec_format('health_w2v_unigram_150.bin', binary=True)

Mais exemplos de uso em https://github.com/nlp-pucrs/cci-regression

Citação

Henrique D. P. dos Santos, Ana Helena D. P. S. Ulbrich, Vinicius Woloszyn, and Renata Vieira. 2018. An initial investigation of the Charlson comorbidity index regression based on clinical notes. 31st International Symposium on Computer-Based Medical Systems, CBMS 2018, 6 pages.

Licença de Uso (opcional)

Apache License 2.0