Planear a normalização automática: tipologia de variação gráfica do corpus das Memórias Paroquiais (1758)
DOI:
https://doi.org/10.24206/lh.v9i1.52234Palabras clave:
Humanidades Digitais, Fronteiras disciplinares, Português. século XVIII, Variação linguística, Memórias ParoquiaisResumen
No que respeita a fenómenos linguísticos, as Humanidades Digitais são hoje imprescindíveis para estudos sobre corpora textuais de grandes dimensões, em que a transformação de textos em dados processáveis requer um tratamento multidisciplinar. Neste artigo iremos apresentar uma abordagem em Humanidades Digitais, aplicada a um corpus textual português do século XVIII, reunido a partir de um conjunto documental de elevado valor histórico-patrimonial conhecido como as Memórias Paroquiais (1758). Dar-se-á conta de algumas características da constituição do corpus, de questões relativas à variação gráfica reconhecida nos textos, propondo-se uma tipologia da variação com vista ao estabelecimento de uma futura automatização da normalização deste conjunto textual.
Citas
ARQUIVO NACIONAL TORRE DO TOMBO (ANTT), Memórias Paroquiais, disponível em: https://digitarq.arquivos.pt/details?id=4238720 e transcrito em www.cidehusdigital.uevora.pt
BANZA, A. P., GONÇALVES, M. Roteiro de História da Língua Portuguesa. (U. C.-H. Heritage, Ed.) Évora: Universidade de Évora, 2018.
BOLLMANN, M. Normalization of historical texts with neural network models.Universitätsbibliothek Johann Christian Senckenberg. (Dissertation), 2018.
CAMERON, H.F., GONÇALVES, M.F., QUARESMA, P. "Linguistic and orthographical classic Portuguese variants. Challenges for NLP". In: Maria José Finatto, Renata Vieira, Senja Pollak and Saturnino Luz (ed.), Proceedings of the Workshop on Digital Humanities and Natural Language Processing, co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020), vol. 2607. Évora (Portugal): CEUR-WP org, 43-48, 2020.
CARDEIRA, E. O essencial sobre a História do Português. Alfragide: Editorial Caminho, 2006.
CARDEIRA, E., MATEUS, M. H. Norma e Variação. Alfragide: Editorial Caminho, 2008.
EDMOND, J. (ed): Digital Technology and the Practices of Humanities Research. Cambridge, UK: Open Book Publishers, 2020, disponível em: https://doi.org/10.11647/OBP.0192
EUROPEAN COMMISION. Commission recommendation of 10.11.2021 on a Common European data space for cultural heritage, Brussels, 10.11.2021 - C(2021) 7953 final, disponível em: https://digital-strategy.ec.europa.eu/en/news/commission-proposes-common-european-data-space-cultural-heritage
GONÇALVES, M. F., BANZA, A. P. (Edits.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: Publicações do CIDEHUS, 2013, disponível em: https://books.openedition.org/cidehus/1073
GONÇALVES, M.F.: Orthography and Orthoepy, in Lebsanft, Franz and Tacke, Felix. Manual of Standardization in the Romance Languages, pp 651-678, Berlin, Boston: De Gruyter, 2020. disponível em: https://doi.org/10.1515/9783110458084
MCGILLIVRAY, B., MIHÁLY, G., Applying Language Technology in Humanities Research, Cham: Palgrave Macmillan - Springer Nature Switzerland, 2020.
REYNAERT, M., HENDRICKX, I., & MARQUILHAS, R. Historical spelling normalization. A comparison of two statistical methods: TICCL and VARD2. Proceedings of ACRH-2, 87-98, 2012.
SANTOS, I., OLIVAL, F., SEQUEIRA, O., «Excavating the data pit: the Portuguese Parish Memories (1758) as a gold standard», in DHandNLP 2020: Digital Humanities and Natural Language Processing: Proceedings of the Workshop on Digital Humanities and Natural Language Processing (DHandNLP 2020) co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020). ed by M. José Finatto; Renata Vieira; Senja Pollak; Saturnino Luz, Évora, Vol. 2607, 2020, ISSN: 1613-0073, disponível em: http://ceur-ws.org/Vol-2607/.Io
SCHREIBMAN, S., SIEMENS, R., UNSWORTH, J. (eds): A companion to Digital Humanities, Oxford: Blackwell, 2004.
VENTURA, A. (Dir.) As Memórias Paroquiais de 1758 do actual Concelho de Portalegre”, in A Cidade – Revista Cultural de Portalegre, nº 10 (nova série), 1995, p. 93-136, disponível em: https://www.bdalentejo.net/BDAObra/BDADigital/Obra.aspx?id=253#
VIEIRA, R., OLIVAL, F., CAMERON, H.F., SANTOS, J., SEQUEIRA, O. and SANTOS, I., 2021. Enriching the 1758 Portuguese Parish Memories (Alentejo) with Named Entities. Journal of Open Humanities Data, 7, p.20. disponível em: http://doi.org/10.5334/johd.43
Descargas
Publicado
Número
Sección
Licencia
El autor del texto enviado a la Revista LaborHistorico cede los derechos autorales a la Revista, en caso de que el texto sea publicado. Sin embargo, los autores mantienen el derecho de compartir, copiar, distribuir, ejecutar y comunicar publicamente el trabajo bajo la condición de hacer referencia a la Revista LaborHistórico.
Todos los trabajos se encuentran bajo la Licencia Creative Commons Reconocimiento-NoComercial 4.0 Internacional.
Los autores son los únicos responsables del contenido de los trabajos. Está prohibido el envío integral o parcial del texto ya publicado en la Revista a otras revistas.