Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português
DOI:
https://doi.org/10.21165/el.v51i3.3271Abstract
O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa computacional voltada para a classificação automática de termos chamados de Entidades Nomeadas em um texto, como os nomes de pessoas, lugares e organizações. Nesta pesquisa, propomos um modelo híbrido para o REN em português, que combina representações word embeddings e traços baseados em representações linguísticas explícitas (como regras morfossintáticas e pronomes de tratamento) aplicados a uma rede neural BiLSTM-CRF. O modelo foi treinado no corpus Harem (SANTOS; CARDOSO, 2007), obtendo 81,06% de medida-F, o que representa uma melhora estatisticamente significativa em relação ao modelo treinado somente com representações word embeddings. A BiLSTM-CRF também superou os resultados obtidos pelo módulo spaCy (HONNIBAL; MONTANI, 2017) e ficou um pouco acima do modelo BERTimbau (SOUZA; NOGUEIRA; LOTUFO, 2020). Esses resultados sugerem que a incorporação de traços linguísticos pode melhorar o desempenho de modelos de redes neurais no reconhecimento de entidades nomeadas em textos.
Downloads
Downloads
Veröffentlicht
Zitationsvorschlag
Ausgabe
Rubrik
Lizenz
Copyright (c) 2023 Estudos Linguísticos (São Paulo. 1978)
Dieses Werk steht unter der Lizenz Creative Commons Namensnennung - Nicht-kommerziell 4.0 International. A aprovação dos artigos para publicação implica na cessão imediata e sem ônus dos direitos de publicação nesta revista. O(s) autor(es) autoriza(m) o Grupo de Estudos Lingüísticos do Estado de São Paulo (GEL) a reproduzi-lo e publicá-lo na revista Estudos Linguísticos (São Paulo. 1978), entendendo-se os termos "reprodução" e "publicação" conforme definição respectivamente dos incisos VI e I do artigo 5° da Lei 9610/98. O(s) autor(es) continuará(rão) a ter os direitos autorais para publicações posteriores. O artigo poderá ser acessado pela rede mundial de computadores (www.gel.org.br/estudoslinguisticos), sendo permitidas, a título gratuito, a consulta e a reprodução de exemplar do artigo para uso próprio de quem o consulta. Essa autorização de publicação não tem limitação de tempo, ficando o GEL responsável pela manutenção da identificação do autor do artigo. Casos de plágio ou quaisquer ilegalidades nos textos apresentados são de inteira responsabilidade de seus autores.