Sciences du langage
Constitution dun corpus linguistique pour une analyse textuelle des discours à partir de la presse ancienne Le corpus La Tribune Indochinoise
Thi Thanh Quyên Pham
Université de Franche-Comté Besançon
Résumé
Dans un contexte de multiplication des sources pour la constitution des corpus linguistiques, la presse ancienne reste une des sources les plus sollicitées par les chercheurs en sciences humaines et sociales. Cependant cette source abondante dont la nature du support est très fragile, pose quelques difficultés pour létablissement scientifique des données textuelles. La question se pose ainsi : quels sont les enjeux de la constitution du corpus à partir de la presse ancienne ? Dans cet article, nous présentons la méthode de travail que nous avons utilisée face à ce genre de document en présentant la constitution du corpus La Tribune Indochinoise. Ainsi, lobjet de cet article est double. Il sagira dabord de montrer comment il est possible de corriger les défauts de la presse ancienne pour construire un corpus en mode plein-texte. Ensuite, nous présenterons la constitution du corpus La Tribune Indochinoise.
Mots-clés : constitution du corpus, presse ancienne, philologie numérique, numérisation, océrisation (OCR), données textuelles.
Télécharger l'article au complet ( - 169 ko)
Télécharger la revue au complet ( - 453 ko)
L'auteure
Thi Thanh Quyên Pham
Programme d'études
Doctorante dArchives, Textes et Sciences des Textes et du Centre Jacques-Petit, EA 3187
Université de Franche-Comté BesançonIntérêts de recherche
Connaissances sur le sujet historique, bibliographie, connaissances sur les méthodologies danalyse textuelle des discours, bibliographie, information scientifique, séminaire, connaissances sur les typologies du discours de presse, conventionnements et acquisition des données, établissement scientifique du texte : vérification des OCR, traitements graphiques puis lexicaux, lemmatisation et étiquetage morpho-syntaxique, structuration en base de données, application du logiciel Astartex-DiaTag, permettant la lecture orientée et sélective, notamment grâce à larticulation de la typologie des rubriques, des comparaisons entre titres et des calculs statistiques (quantifications et classifications).