Planear a normalização automática: tipologia de variação gráfica do corpus das Memórias Paroquiais (1758)
DOI:
https://doi.org/10.24206/lh.v9i1.52234Keywords:
Humanidades Digitais, Fronteiras disciplinares, Português. século XVIII, Variação linguística, Memórias ParoquiaisAbstract
No que respeita a fenómenos linguísticos, as Humanidades Digitais são hoje imprescindíveis para estudos sobre corpora textuais de grandes dimensões, em que a transformação de textos em dados processáveis requer um tratamento multidisciplinar. Neste artigo iremos apresentar uma abordagem em Humanidades Digitais, aplicada a um corpus textual português do século XVIII, reunido a partir de um conjunto documental de elevado valor histórico-patrimonial conhecido como as Memórias Paroquiais (1758). Dar-se-á conta de algumas características da constituição do corpus, de questões relativas à variação gráfica reconhecida nos textos, propondo-se uma tipologia da variação com vista ao estabelecimento de uma futura automatização da normalização deste conjunto textual.
References
ARQUIVO NACIONAL TORRE DO TOMBO (ANTT), Memórias Paroquiais, disponível em: https://digitarq.arquivos.pt/details?id=4238720 e transcrito em www.cidehusdigital.uevora.pt
BANZA, A. P., GONÇALVES, M. Roteiro de História da Língua Portuguesa. (U. C.-H. Heritage, Ed.) Évora: Universidade de Évora, 2018.
BOLLMANN, M. Normalization of historical texts with neural network models.Universitätsbibliothek Johann Christian Senckenberg. (Dissertation), 2018.
CAMERON, H.F., GONÇALVES, M.F., QUARESMA, P. "Linguistic and orthographical classic Portuguese variants. Challenges for NLP". In: Maria José Finatto, Renata Vieira, Senja Pollak and Saturnino Luz (ed.), Proceedings of the Workshop on Digital Humanities and Natural Language Processing, co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020), vol. 2607. Évora (Portugal): CEUR-WP org, 43-48, 2020.
CARDEIRA, E. O essencial sobre a História do Português. Alfragide: Editorial Caminho, 2006.
CARDEIRA, E., MATEUS, M. H. Norma e Variação. Alfragide: Editorial Caminho, 2008.
EDMOND, J. (ed): Digital Technology and the Practices of Humanities Research. Cambridge, UK: Open Book Publishers, 2020, disponível em: https://doi.org/10.11647/OBP.0192
EUROPEAN COMMISION. Commission recommendation of 10.11.2021 on a Common European data space for cultural heritage, Brussels, 10.11.2021 - C(2021) 7953 final, disponível em: https://digital-strategy.ec.europa.eu/en/news/commission-proposes-common-european-data-space-cultural-heritage
GONÇALVES, M. F., BANZA, A. P. (Edits.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: Publicações do CIDEHUS, 2013, disponível em: https://books.openedition.org/cidehus/1073
GONÇALVES, M.F.: Orthography and Orthoepy, in Lebsanft, Franz and Tacke, Felix. Manual of Standardization in the Romance Languages, pp 651-678, Berlin, Boston: De Gruyter, 2020. disponível em: https://doi.org/10.1515/9783110458084
MCGILLIVRAY, B., MIHÁLY, G., Applying Language Technology in Humanities Research, Cham: Palgrave Macmillan - Springer Nature Switzerland, 2020.
REYNAERT, M., HENDRICKX, I., & MARQUILHAS, R. Historical spelling normalization. A comparison of two statistical methods: TICCL and VARD2. Proceedings of ACRH-2, 87-98, 2012.
SANTOS, I., OLIVAL, F., SEQUEIRA, O., «Excavating the data pit: the Portuguese Parish Memories (1758) as a gold standard», in DHandNLP 2020: Digital Humanities and Natural Language Processing: Proceedings of the Workshop on Digital Humanities and Natural Language Processing (DHandNLP 2020) co-located with International Conference on the Computational Processing of Portuguese (PROPOR 2020). ed by M. José Finatto; Renata Vieira; Senja Pollak; Saturnino Luz, Évora, Vol. 2607, 2020, ISSN: 1613-0073, disponível em: http://ceur-ws.org/Vol-2607/.Io
SCHREIBMAN, S., SIEMENS, R., UNSWORTH, J. (eds): A companion to Digital Humanities, Oxford: Blackwell, 2004.
VENTURA, A. (Dir.) As Memórias Paroquiais de 1758 do actual Concelho de Portalegre”, in A Cidade – Revista Cultural de Portalegre, nº 10 (nova série), 1995, p. 93-136, disponível em: https://www.bdalentejo.net/BDAObra/BDADigital/Obra.aspx?id=253#
VIEIRA, R., OLIVAL, F., CAMERON, H.F., SANTOS, J., SEQUEIRA, O. and SANTOS, I., 2021. Enriching the 1758 Portuguese Parish Memories (Alentejo) with Named Entities. Journal of Open Humanities Data, 7, p.20. disponível em: http://doi.org/10.5334/johd.43
Downloads
Published
Issue
Section
License
Authors who publish with this journal agree to the following:
a. The authors hold copyright of the published papers; authors are the sole responsible party for published papers content; the published paper is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License which allows the sharing of the publication as long as there is acknowledgement of authorship and publishing by Revista LaborHistórico.
b. Authors should seek previous permission from the journal in order to publish their articles as book chapters. Such publications should acknowledge first publishing by LaborHistórico.
c. Authors may publish and distribute their papers (for example, at institutional repositories, author's sites) at any time during or after the editorial process by Revista LaborHistórico.