Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português
DOI:
https://doi.org/10.21165/el.v51i3.3271Resumo
O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa computacional voltada para a classificação automática de termos chamados de Entidades Nomeadas em um texto, como os nomes de pessoas, lugares e organizações. Nesta pesquisa, propomos um modelo híbrido para o REN em português, que combina representações word embeddings e traços baseados em representações linguísticas explícitas (como regras morfossintáticas e pronomes de tratamento) aplicados a uma rede neural BiLSTM-CRF. O modelo foi treinado no corpus Harem (SANTOS; CARDOSO, 2007), obtendo 81,06% de medida-F, o que representa uma melhora estatisticamente significativa em relação ao modelo treinado somente com representações word embeddings. A BiLSTM-CRF também superou os resultados obtidos pelo módulo spaCy (HONNIBAL; MONTANI, 2017) e ficou um pouco acima do modelo BERTimbau (SOUZA; NOGUEIRA; LOTUFO, 2020). Esses resultados sugerem que a incorporação de traços linguísticos pode melhorar o desempenho de modelos de redes neurais no reconhecimento de entidades nomeadas em textos.
Downloads
Downloads
Publicado
Como Citar
Edição
Secção
Licença
Direitos de Autor (c) 2023 Estudos Linguísticos (São Paulo. 1978)
Este trabalho encontra-se publicado com a Creative Commons Atribuição-NãoComercial 4.0.
A aprovação dos artigos para publicação implica na cessão imediata e sem ônus dos direitos de publicação nesta revista. O(s) autor(es) autoriza(m) o Grupo de Estudos Lingüísticos do Estado de São Paulo (GEL) a reproduzi-lo e publicá-lo na revista Estudos Linguísticos (São Paulo. 1978), entendendo-se os termos "reprodução" e "publicação" conforme definição respectivamente dos incisos VI e I do artigo 5° da Lei 9610/98. O(s) autor(es) continuará(rão) a ter os direitos autorais para publicações posteriores. O artigo poderá ser acessado pela rede mundial de computadores (www.gel.org.br/estudoslinguisticos), sendo permitidas, a título gratuito, a consulta e a reprodução de exemplar do artigo para uso próprio de quem o consulta. Essa autorização de publicação não tem limitação de tempo, ficando o GEL responsável pela manutenção da identificação do autor do artigo. Casos de plágio ou quaisquer ilegalidades nos textos apresentados são de inteira responsabilidade de seus autores.