Sciences du langage

Constitution d’un corpus linguistique pour une analyse textuelle des discours à partir de la presse ancienne Le corpus La Tribune Indochinoise

Thi Thanh Quyên Pham

Université de Franche-Comté – Besançon

 

Résumé

Dans un contexte de multiplication des sources pour la constitution des corpus linguistiques, la presse ancienne reste une des sources les plus sollicitées par les chercheurs en sciences humaines et sociales. Cependant cette source abondante dont la nature du support est très fragile, pose quelques difficultés pour l’établissement scientifique des données textuelles. La question se pose ainsi : quels sont les enjeux de la constitution du corpus à partir de la presse ancienne ? Dans cet article, nous présentons la méthode de travail que nous avons utilisée face à ce genre de document en présentant la constitution du corpus La Tribune Indochinoise. Ainsi, l’objet de cet article est double. Il s’agira d’abord de montrer comment il est possible de corriger les défauts de la presse ancienne pour construire un corpus en mode plein-texte. Ensuite, nous présenterons la constitution du corpus La Tribune Indochinoise.

Mots-clés : constitution du corpus, presse ancienne, philologie numérique, numérisation, océrisation (OCR), données textuelles.


 Télécharger l'article au complet ( - 169 ko)

 Télécharger la revue au complet ( - 453 ko)

 Retourner au sommaire

 

L'auteure

Thi Thanh Quyên Pham

Programme d'études

Doctorante d’Archives, Textes et Sciences des Textes et du Centre Jacques-Petit, EA 3187

Université de Franche-Comté – Besançon

Intérêts de recherche 

Connaissances sur le sujet historique, bibliographie, connaissances sur les méthodologies d’analyse textuelle des discours, bibliographie, information scientifique, séminaire, connaissances sur les typologies du discours de presse, conventionnements et acquisition des données, établissement scientifique du texte : vérification des OCR, traitements graphiques puis lexicaux, lemmatisation et étiquetage morpho-syntaxique, structuration en base de données, application du logiciel Astartex-DiaTag, permettant la lecture orientée et sélective, notamment grâce à l’articulation de la typologie des rubriques, des comparaisons entre titres et des calculs statistiques (quantifications et classifications).