Sobre a constituição de corpora para línguas com poucos recursos

Autores

DOI:

https://doi.org/10.31513/linguistica.2020.v16n1a31709

Palavras-chave:

línguas com poucos recursos, PLN, corpus

Resumo

O uso de corpora em estudos linguísticos é bastante antigo, já a área da Linguística de Corpus é relativamente nova, tendo sua origem vinculada à ampliação do acesso a computadores e, consequentemente, ao Processamento de Linguagem Natural (PLN). À medida que a área foi ganhando influência na pesquisa linguística, o conceito de corpus foi se tornando mais específico e elementos como amplitude e referência, além de legibilidade por máquina e tamanho finito, passaram a se tornar fundamentais para a composição de amostras na área. Ao mesmo tempo, no entanto, foram surgindo corpora menores e bem menos amplos constituídos com objetivos bastante distintos, como, por exemplo, para a realização de documentação de línguas ameaçadas. Partindo disso, o presente artigo tem por objetivo discutir as diferenças entre corpora “prototípicos” criados segundo os pressupostos da Linguística de Corpus, e os corpora de línguas com pouca presença digital (less-resourced languages). Mostro que os corpora de línguas com pouco recursos tendem a ser mais especializados e, dificilmente, cumprem todos os critérios exigidos de um corpus amplo e representativo de uma língua. Apesar dos limites impostos por questões específicas de cada língua, concluo que a constituição de corpora para línguas com poucos recursos, ainda que não cumpram todos os critérios propostos pela Linguística de Corpus, devem ser realizados, e os resultados devem ser aproveitados de diversas formas, seja gerando novas tecnologias, servindo de suporte empírico para teorias linguísticas ou promovendo a língua na comunidade.

Biografia do Autor

Lílian Teixeira de Sousa, Universidade Federal da Bahia (UFBa)

Possui graduação em Letras pela Universidade Federal de Ouro Preto (2004), mestrado em Estudos Linguísticos pela Universidade Federal de Minas Gerais (2007) e doutorado em Linguística pela Universidade Estadual de Campinas (2012) com período de sanduíche na Universidade Livre de Berlim. Atualmente é professora adjunta da Universidade Federal da Bahia, atuando na graduação e pós-graduação. Tem experiência na área de Linguística, com ênfase em Teoria e Análise Linguística, atuando principalmente nos seguintes temas: diacronia, sintaxe e interfaces.

Downloads

Publicado

2020-04-30