O PATRIMÓNIO ORAL ESCRITO: A CONSTRUÇÃO DE UM CORPUS DO FORRO

 

Abigail Tiny
abigail.tiny@hotmail.com

Haldane Amaro
amaro25@hotmail.com

Iris Hendrickx
iris@clul.ul.pt

Tjerk Hagemeijer
tjerk.hagemeijer@gmail.com

Centro de Linguística da Universidade de Lisboa

No âmbito do projeto “As origens e o desenvolvimento de sociedades crioulas no Golfo da uiné: um estudo interdisciplinar” (PTDC/CLE-LIN/111494/2009), o Centro de Linguística da Universidade de Lisboa (CLUL) está atualmente a compilar um corpus linguístico do forro, que é a segunda língua mais falada em S. Tomé e Príncipe a seguir ao português. Nesta comunicação, propomo-nos descrever as diferentes etapas na construção do corpus.

O corpus é composto por materiais escritos e orais. Embora seja sobretudo uma língua da oralidade, o forro tem sido ocasionalmente utilizado como língua escrita desde a segunda metade do século XIX. O subcorpus escrito abrange a produção em forro dessa época até ao presente. Os materiais consistem em publicações, panfletos e materiais dispersos que na sua grande maioria foram obtidos em S. Tomé, quer no Arquivo Histórico quer através de particulares. Uma parte significativa da produção escrita transcreve elementos relacionados com o património oral, tais como provérbios, adivinhas, histórias tradicionais e letras de músicas. O subcorpus oral, por outro lado, é constituído por histórias tradicionais e diálogos, recolhidos em 1997 e 2001.

Na ausência de uma ortografia oficial e de materiais de normalização da língua, tais como dicionários ou gramáticas, verificámos que os textos escritos apresentam variadíssimas ortografias, muitos das quais pouco sistemáticas. Procedeu-se, por isso, à sua adaptação e uniformização num editor de texto, seguindo o ALUSTP, a proposta de escrita para os três crioulos autóctones de S. Tomé e Príncipe (Pontífice et al. 2009), que se rege por princípios fonético-fonológicos em detrimento de uma escrita etimológica. O formato do corpus segue as normas gerais para a linguística de corpora e apresenta codificação de caracteres UTF-8 e anotação XML para os metados (e.g. autoria, título, ano, género). O corpus escrito tem cerca de 70.000 palavras e o corpus oral é superior a 100.000 palavras. Para efeitos de anotação, foi também preparado um conjunto de etiquetas (tags) baseado nas especificidades da língua.

No âmbito do referido projeto, está também prevista a compilação de corpora para o angolar, o lung’ie (Príncipe) e o fa d’ambô (crioulo de Ano Bom), embora de menor dimensão do que o do forro. Estes quatro corpora serão primariamente utilizados para a pesquisa e análise de dados linguísticos visando a reconstrução das propriedades linguísticas do proto-crioulo do Golfo da Guiné, isto é a proto-língua que deu origens a estas quatro línguas no decurso do século XVI. Por outro lado, os corpora, que serão posteriormente tornados públicos, constituem um trabalho pioneiro no âmbito dos crioulos de base lexical portuguesa e representarão um contributo para a normalização, manutenção e revitalização destas línguas.

Keywords: corpus, forro, ortografia, anotação

Biography note:
Abigail Tiny Cosme – Natural de São Tomé e Príncipe, Licenciada desde 2007 em Linguística pela Faculdade de Letras da Universidade de Lisboa. Pós-graduada em Educação especial, Domínio Cognitivo e Motor pelo Instituto de Ciências Educativas – Ramada/Odivelas. Desde Outubro de 2011 colaboradora do Centro de Linguística da Universidade de Lisboa no âmbito do projecto: “As origens e o desenvolvimento de sociedades crioulas no Golfo da Guiné: um estudo interdisciplinar ”.

Tjerk Hagemeijer – Fez grande parte do seu percurso académico na Universidade de Lisboa, onde se doutorou em linguística em 2007, com uma tese sobre o crioulo de S. Tomé. É atualmente professor auxiliar do Departamento de Linguística Geral e Românica da FLUL e investigador do Centro de Linguística da Universidade de Lisboa (CLUL), tendo dedicado a maior parte da sua investigação ao estudo das línguas crioulas do Golfo da Guiné.

Haldane Amaro – Natural de São Tomé e Príncipe, licenciado em Estudos Africanos pela Faculdade de Letras da Universidade de Lisboa em 2011. Os seus interesses são a cultura e em especial as línguas do Arquipélago de São Tomé e Príncipe, desde 2011 é investigador do projeto “As origens e o desenvolvimento de sociedades crioulas no Golfo da Guiné: um estudo interdisciplinar ”.

Iris Hendrickx – Researcher at the Linguistics Center of the University of Lisboa.  After getting her PhD at Tilburg University, the Netherlands in 2005, she worked as a researcher at CLiPs research group at Antwerp University and the LT³ team at the University College Ghent, Belgium. Her research interests are positioned in the field of Computational Linguistics and Natural Language Processing. She is currently a part-time member of the project mentioned above.