Sobre a constituição de corpora para línguas com poucos recursos
DOI:
https://doi.org/10.31513/linguistica.2020.v16n1a31709Palavras-chave:
línguas com poucos recursos, PLN, corpusResumo
O uso de corpora em estudos linguísticos é bastante antigo, já a área da Linguística de Corpus é relativamente nova, tendo sua origem vinculada à ampliação do acesso a computadores e, consequentemente, ao Processamento de Linguagem Natural (PLN). À medida que a área foi ganhando influência na pesquisa linguística, o conceito de corpus foi se tornando mais específico e elementos como amplitude e referência, além de legibilidade por máquina e tamanho finito, passaram a se tornar fundamentais para a composição de amostras na área. Ao mesmo tempo, no entanto, foram surgindo corpora menores e bem menos amplos constituídos com objetivos bastante distintos, como, por exemplo, para a realização de documentação de línguas ameaçadas. Partindo disso, o presente artigo tem por objetivo discutir as diferenças entre corpora “prototípicos” criados segundo os pressupostos da Linguística de Corpus, e os corpora de línguas com pouca presença digital (less-resourced languages). Mostro que os corpora de línguas com pouco recursos tendem a ser mais especializados e, dificilmente, cumprem todos os critérios exigidos de um corpus amplo e representativo de uma língua. Apesar dos limites impostos por questões específicas de cada língua, concluo que a constituição de corpora para línguas com poucos recursos, ainda que não cumpram todos os critérios propostos pela Linguística de Corpus, devem ser realizados, e os resultados devem ser aproveitados de diversas formas, seja gerando novas tecnologias, servindo de suporte empírico para teorias linguísticas ou promovendo a língua na comunidade.
Downloads
Publicado
Edição
Seção
Licença
Autores que publicam na Revista Linguí∫tica concordam com os seguintes termos:
Os autores mantêm os direitos e cedem à revista o direito à primeira publicação, simultaneamente submetido a uma licença Creative Commons que permite o compartilhamento por terceiros com a devida menção ao autor e à primeira publicação pela Revista Linguí∫tica.
Os autores podem entrar em acordos contratuais adicionais e separados para a distribuição não exclusiva da versão publicada da obra (por exemplo, postá-la em um repositório institucional ou publicá-la em um livro), com o reconhecimento de sua publicação inicial na Revista Linguí∫tica.

A Revista Linguí∫tica é uma revista do Programa de Pós-Graduação em Linguística da UFRJ e se utiliza da Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional (CC-BY-NC)