PhonLex: um corpus anotado para pesquisas de frequência de unidades fonéticas, fonológicas e morfológicas do português
DOI:
https://doi.org/10.35520/diadorim.2025.v27n3a68315Resumo
Este artigo apresenta o corpus linguístico PhonLex, desenvolvido para a análise de frequência de estruturas fonéticas, fonológicas e morfológicas do português brasileiro. A criação do PhonLex envolveu etapas de seleção de léxico representativo do português brasileiro, seu tratamento, extração dos itens lexicais, anotações e revisões semiautomáticas e manuais. O corpus conta com transcrições fonéticas de itens lexicais, sílabas, tipos de sílabas, consoantes em diferentes posições silábicas, vogais por posição acentual, codas, segmentações morfológicas de raiz, afixos e categorias gramaticais. Além de apresentar o PhonLex, este trabalho apresenta resultados, a partir de uma amostra de aproximadamente 12 mil palavras, relativos à distribuição de frequência do tamanho de palavras, tipo de sílabas, informações de consoantes em onset simples e complexo, ditongos orais e nasais e rimas com codas consonantais róticas, fricativas e nasais. Observa-se que a alta frequência de certas unidades fonológicas como rima e vogais é amplamente motivada pela morfologia da língua nessas posições, que realiza certas propriedades semânticas ou classificatórias de alta rentabilidade no corpus. Os resultados comparáveis mostraram-se convergentes com os reportados na literatura, evidenciando a representatividade da amostra e a robustez dos achados. Este trabalho inaugura o PhonLex como uma ferramenta detalhada da estrutura fonética, fonológica e morfológica do português brasileiro, permitindo pesquisas detalhadas desses níveis.
Downloads
Downloads
Publicado
Como Citar
Edição
Seção
Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial 4.0 International License.
Transferência de direitos autorais - Autorização para publicação
Caso o artigo submetido seja aprovado para publicação, já fica acordado que o autor autoriza a UFRJ a reproduzi-lo e publicá-lo na Diadorim: Revista de Estudos Linguísticos e Literários, entendendo-se os termos "reprodução" e "publicação" conforme definição respectivamente dos incisos VI e I do artigo 5° da Lei 9610/98. O artigo poderá ser acessado pela internet, a título gratuito, para consulta e reprodução de exemplar do artigo para uso próprio de quem a consulta. Essa autorização de publicação não tem limitação de tempo, ficando a UFRJ responsável pela manutenção da identificação do autor do artigo.

A Revista Diadorim utiliza uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional (CC BY-NC 4.0).