Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português

Andressa Vieira e Silva; Marcos Lopes

doi:10.21165/el.v51i3.3271

Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português

Autor/innen

Andressa Vieira e Silva Universidade de São Paulo (USP), São Paulo, São Paulo, Brasil https://orcid.org/0000-0001-7402-2702
Marcos Lopes Universidade de São Paulo (USP), São Paulo, São Paulo, Brasil https://orcid.org/0000-0002-6147-7369

DOI:

https://doi.org/10.21165/el.v51i3.3271

Abstract

O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa computacional voltada para a classificação automática de termos chamados de Entidades Nomeadas em um texto, como os nomes de pessoas, lugares e organizações. Nesta pesquisa, propomos um modelo híbrido para o REN em português, que combina representações word embeddings e traços baseados em representações linguísticas explícitas (como regras morfossintáticas e pronomes de tratamento) aplicados a uma rede neural BiLSTM-CRF. O modelo foi treinado no corpus Harem (SANTOS; CARDOSO, 2007), obtendo 81,06% de medida-F, o que representa uma melhora estatisticamente significativa em relação ao modelo treinado somente com representações word embeddings. A BiLSTM-CRF também superou os resultados obtidos pelo módulo spaCy (HONNIBAL; MONTANI, 2017) e ficou um pouco acima do modelo BERTimbau (SOUZA; NOGUEIRA; LOTUFO, 2020). Esses resultados sugerem que a incorporação de traços linguísticos pode melhorar o desempenho de modelos de redes neurais no reconhecimento de entidades nomeadas em textos.

Downloads

PDF (Português (Brasil))

Veröffentlicht

2023-08-02

Zitationsvorschlag

Silva, A. V. e, & Lopes, M. (2023). Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português. Estudos Linguísticos (São Paulo. 1978), 51(3), 1317–1335. https://doi.org/10.21165/el.v51i3.3271

Bibliografische Angaben herunterladen

Ausgabe

Bd. 51 Nr. 3 (2022)

Rubrik

Artigos

Lizenz

Dieses Werk steht unter der Lizenz Creative Commons Namensnennung - Nicht-kommerziell 4.0 International. A aprovação dos artigos para publicação implica na cessão imediata e sem ônus dos direitos de publicação nesta revista. O(s) autor(es) autoriza(m) o Grupo de Estudos Lingüísticos do Estado de São Paulo (GEL) a reproduzi-lo e publicá-lo na revista Estudos Linguísticos (São Paulo. 1978), entendendo-se os termos "reprodução" e "publicação" conforme definição respectivamente dos incisos VI e I do artigo 5° da Lei 9610/98. O(s) autor(es) continuará(rão) a ter os direitos autorais para publicações posteriores. O artigo poderá ser acessado pela rede mundial de computadores (www.gel.org.br/estudoslinguisticos), sendo permitidas, a título gratuito, a consulta e a reprodução de exemplar do artigo para uso próprio de quem o consulta. Essa autorização de publicação não tem limitação de tempo, ficando o GEL responsável pela manutenção da identificação do autor do artigo. Casos de plágio ou quaisquer ilegalidades nos textos apresentados são de inteira responsabilidade de seus autores.

Um modelo híbrido para o Reconhecimento de Entidades Nomeadas em português

Autor/innen

DOI:

Abstract

Downloads

Downloads

Veröffentlicht

Zitationsvorschlag

Ausgabe

Rubrik

Lizenz

Beitrag einreichen

Sprache

entwickelt von