Planear a normalização automática: tipologia de variação gráfica do corpus das Memórias Paroquiais (1758)

Autores

DOI:

https://doi.org/10.24206/lh.v9i1.52234

Palavras-chave:

Humanidades Digitais, Fronteiras disciplinares, Português. século XVIII, Variação linguística, Memórias Paroquiais

Resumo

No que respeita a fenómenos linguísticos, as Humanidades Digitais são hoje imprescindíveis para estudos sobre corpora textuais de grandes dimensões, em que a transformação de textos em dados processáveis requer um tratamento multidisciplinar. Neste artigo iremos apresentar uma abordagem em Humanidades Digitais, aplicada a um corpus textual português do século XVIII, reunido a partir de um conjunto documental de elevado valor histórico-patrimonial conhecido como as Memórias Paroquiais (1758). Dar-se-á conta de algumas características da constituição do corpus, de questões relativas à variação gráfica reconhecida nos textos, propondo-se uma tipologia da variação com vista ao estabelecimento de uma futura automatização da normalização deste conjunto textual.


 

Biografia do Autor

Helena Freire Cameron, Instituto Politécnico de Portalegre/CIDEHUS-Universidade de Évora, Portugal

Linguística, Linguística Computacional, Humanidades Digitais 

Fernanda Olival, Universidade de Évora-CIDEHUS, Portugal

História Comparativa, História Social, Humanidades Digitais, 

Renata Vieira, Universidade de Évora-CIDEHUS, Portugal

Ciência da Computação, Processamento de Linguagem Natural, Humanidades Digitais 

Referências

ARQUIVO NACIONAL TORRE DO TOMBO (ANTT), Memórias Paroquiais, disponível em: https://digitarq.arquivos.pt/details?id=4238720 e transcrito em www.cidehusdigital.uevora.pt

BANZA, A. P., GONÇALVES, M. Roteiro de História da Língua Portuguesa. (U. C.-H. Heritage, Ed.) Évora: Universidade de Évora, 2018.

BOLLMANN, M. Normalization of historical texts with neural network models.Universitätsbibliothek Johann Christian Senckenberg. (Dissertation), 2018.

CAMERON, H.F., GONÇALVES, M.F., QUARESMA, P. "Linguistic and orthographical classic Portuguese variants. Challenges for NLP". In: Maria José Finatto, Renata Vieira, Senja Pollak and Saturnino Luz (ed.), Proceedings of the Workshop on Digital Humanities and Natural Language Processing, co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020), vol. 2607. Évora (Portugal): CEUR-WP org, 43-48, 2020.

CARDEIRA, E. O essencial sobre a História do Português. Alfragide: Editorial Caminho, 2006.

CARDEIRA, E., MATEUS, M. H. Norma e Variação. Alfragide: Editorial Caminho, 2008.

EDMOND, J. (ed): Digital Technology and the Practices of Humanities Research. Cambridge, UK: Open Book Publishers, 2020, disponível em: https://doi.org/10.11647/OBP.0192

EUROPEAN COMMISION. Commission recommendation of 10.11.2021 on a Common European data space for cultural heritage, Brussels, 10.11.2021 - C(2021) 7953 final, disponível em: https://digital-strategy.ec.europa.eu/en/news/commission-proposes-common-european-data-space-cultural-heritage

GONÇALVES, M. F., BANZA, A. P. (Edits.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: Publicações do CIDEHUS, 2013, disponível em: https://books.openedition.org/cidehus/1073

GONÇALVES, M.F.: Orthography and Orthoepy, in Lebsanft, Franz and Tacke, Felix. Manual of Standardization in the Romance Languages, pp 651-678, Berlin, Boston: De Gruyter, 2020. disponível em: https://doi.org/10.1515/9783110458084

MCGILLIVRAY, B., MIHÁLY, G., Applying Language Technology in Humanities Research, Cham: Palgrave Macmillan - Springer Nature Switzerland, 2020.

REYNAERT, M., HENDRICKX, I., & MARQUILHAS, R. Historical spelling normalization. A comparison of two statistical methods: TICCL and VARD2. Proceedings of ACRH-2, 87-98, 2012.

SANTOS, I., OLIVAL, F., SEQUEIRA, O., «Excavating the data pit: the Portuguese Parish Memories (1758) as a gold standard», in DHandNLP 2020: Digital Humanities and Natural Language Processing: Proceedings of the Workshop on Digital Humanities and Natural Language Processing (DHandNLP 2020) co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020). ed by M. José Finatto; Renata Vieira; Senja Pollak; Saturnino Luz, Évora, Vol. 2607, 2020, ISSN: 1613-0073, disponível em: http://ceur-ws.org/Vol-2607/.Io

SCHREIBMAN, S., SIEMENS, R., UNSWORTH, J. (eds): A companion to Digital Humanities, Oxford: Blackwell, 2004.

VENTURA, A. (Dir.) As Memórias Paroquiais de 1758 do actual Concelho de Portalegre”, in A Cidade – Revista Cultural de Portalegre, nº 10 (nova série), 1995, p. 93-136, disponível em: https://www.bdalentejo.net/BDAObra/BDADigital/Obra.aspx?id=253#

VIEIRA, R., OLIVAL, F., CAMERON, H.F., SANTOS, J., SEQUEIRA, O. and SANTOS, I., 2021. Enriching the 1758 Portuguese Parish Memories (Alentejo) with Named Entities. Journal of Open Humanities Data, 7, p.20. disponível em: http://doi.org/10.5334/johd.43

Downloads

Publicado

24-07-2023

Edição

Seção

Artigo - Dossiê "Humanidades Digitais"