Planear a normalização automática: tipologia de variação gráfica do corpus das Memórias Paroquiais (1758)
DOI:
https://doi.org/10.24206/lh.v9i1.52234Palavras-chave:
Humanidades Digitais, Fronteiras disciplinares, Português. século XVIII, Variação linguística, Memórias ParoquiaisResumo
No que respeita a fenómenos linguísticos, as Humanidades Digitais são hoje imprescindíveis para estudos sobre corpora textuais de grandes dimensões, em que a transformação de textos em dados processáveis requer um tratamento multidisciplinar. Neste artigo iremos apresentar uma abordagem em Humanidades Digitais, aplicada a um corpus textual português do século XVIII, reunido a partir de um conjunto documental de elevado valor histórico-patrimonial conhecido como as Memórias Paroquiais (1758). Dar-se-á conta de algumas características da constituição do corpus, de questões relativas à variação gráfica reconhecida nos textos, propondo-se uma tipologia da variação com vista ao estabelecimento de uma futura automatização da normalização deste conjunto textual.
Referências
ARQUIVO NACIONAL TORRE DO TOMBO (ANTT), Memórias Paroquiais, disponível em: https://digitarq.arquivos.pt/details?id=4238720 e transcrito em www.cidehusdigital.uevora.pt
BANZA, A. P., GONÇALVES, M. Roteiro de História da Língua Portuguesa. (U. C.-H. Heritage, Ed.) Évora: Universidade de Évora, 2018.
BOLLMANN, M. Normalization of historical texts with neural network models.Universitätsbibliothek Johann Christian Senckenberg. (Dissertation), 2018.
CAMERON, H.F., GONÇALVES, M.F., QUARESMA, P. "Linguistic and orthographical classic Portuguese variants. Challenges for NLP". In: Maria José Finatto, Renata Vieira, Senja Pollak and Saturnino Luz (ed.), Proceedings of the Workshop on Digital Humanities and Natural Language Processing, co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020), vol. 2607. Évora (Portugal): CEUR-WP org, 43-48, 2020.
CARDEIRA, E. O essencial sobre a História do Português. Alfragide: Editorial Caminho, 2006.
CARDEIRA, E., MATEUS, M. H. Norma e Variação. Alfragide: Editorial Caminho, 2008.
EDMOND, J. (ed): Digital Technology and the Practices of Humanities Research. Cambridge, UK: Open Book Publishers, 2020, disponível em: https://doi.org/10.11647/OBP.0192
EUROPEAN COMMISION. Commission recommendation of 10.11.2021 on a Common European data space for cultural heritage, Brussels, 10.11.2021 - C(2021) 7953 final, disponível em: https://digital-strategy.ec.europa.eu/en/news/commission-proposes-common-european-data-space-cultural-heritage
GONÇALVES, M. F., BANZA, A. P. (Edits.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: Publicações do CIDEHUS, 2013, disponível em: https://books.openedition.org/cidehus/1073
GONÇALVES, M.F.: Orthography and Orthoepy, in Lebsanft, Franz and Tacke, Felix. Manual of Standardization in the Romance Languages, pp 651-678, Berlin, Boston: De Gruyter, 2020. disponível em: https://doi.org/10.1515/9783110458084
MCGILLIVRAY, B., MIHÁLY, G., Applying Language Technology in Humanities Research, Cham: Palgrave Macmillan - Springer Nature Switzerland, 2020.
REYNAERT, M., HENDRICKX, I., & MARQUILHAS, R. Historical spelling normalization. A comparison of two statistical methods: TICCL and VARD2. Proceedings of ACRH-2, 87-98, 2012.
SANTOS, I., OLIVAL, F., SEQUEIRA, O., «Excavating the data pit: the Portuguese Parish Memories (1758) as a gold standard», in DHandNLP 2020: Digital Humanities and Natural Language Processing: Proceedings of the Workshop on Digital Humanities and Natural Language Processing (DHandNLP 2020) co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020). ed by M. José Finatto; Renata Vieira; Senja Pollak; Saturnino Luz, Évora, Vol. 2607, 2020, ISSN: 1613-0073, disponível em: http://ceur-ws.org/Vol-2607/.Io
SCHREIBMAN, S., SIEMENS, R., UNSWORTH, J. (eds): A companion to Digital Humanities, Oxford: Blackwell, 2004.
VENTURA, A. (Dir.) As Memórias Paroquiais de 1758 do actual Concelho de Portalegre”, in A Cidade – Revista Cultural de Portalegre, nº 10 (nova série), 1995, p. 93-136, disponível em: https://www.bdalentejo.net/BDAObra/BDADigital/Obra.aspx?id=253#
VIEIRA, R., OLIVAL, F., CAMERON, H.F., SANTOS, J., SEQUEIRA, O. and SANTOS, I., 2021. Enriching the 1758 Portuguese Parish Memories (Alentejo) with Named Entities. Journal of Open Humanities Data, 7, p.20. disponível em: http://doi.org/10.5334/johd.43
Downloads
Publicado
Edição
Seção
Licença
Os autores que publicam nesta revista concordam com o seguinte:
a. Os autores detêm os direitos autorais dos artigos publicados; os autores são os únicos responsáveis pelo conteúdo dos trabalhos publicados; o trabalho publicado está licenciado sob uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional, que permite o compartilhamento da publicação desde que haja o reconhecimento de autoria e da publicação pela Revista LaborHistórico.
b. Em caso de uma segunda publicação, é obrigatório reconhecer a primeira publicação da Revista LaborHistórico.
c. Os autores podem publicar e distribuir seus trabalhos (por exemplo, em repositórios institucionais, sites e perfis pessoais) a qualquer momento, após o processo editorial da Revista LaborHistórico.