Du Thesaurus Linguae Graecae à LaTeX

lundi 29 avril 2013, mise à jour lundi 16 février 2015, par Maïeul
RSS 2.0 Forum

Mon script permettant d’adapter des textes extraits du Thesaurus Linguae Graecae à LaTeX a été amélioré avec l’aide de Annette von STOCKHAUSEN.

Outre des nouvelles fonctionnalités, il est désormais configurable. Le présent article a pour vocation à devenir la documentation « officielle » du script à partir de sa version 2.0 [1].

Exemple

J’ai extrait du site TLG le texte suivant [2] :

 Ἔκαμεν ὁ λόγος, τοῦτον τὸν θεσπέσιον καὶ τριπόθητον
Βαρνάβαν τὸν ἀπόστολον ἐπᾶραι τοῖς ἐγκωμίοις ποθῶν,
καὶ οὔπω ἥψατο τοῦ προοιμίου· τοῖς γὰρ ἐπαίνοις ἀπρό-
σιτος τυγχάνει ὁ θαυμάσιος. Διὸ ἀφέντες ὡς ἀνέφικτον (135)
τὸν περὶ τῶν ἐγκωμίων λόγον, ὀλίγα τῶν εἰς ἡμᾶς
ἰόντων περὶ τῆς τούτου βιώσεως καὶ τελειώσεως ἔκ τε
τοῦ Στρωματέως καὶ ἐξ ἑτέρων ἀρχαίων συγγραμμάτων
παραθήσομαι τῇ ὑμετέρᾳ ὁσιότητι, καὶ οὕτω τὸ πέρας
ἐπιθήσομεν τῷ διηγήματι, παραχωρήσαντες τῇ θεοπνεύστῳ (140)
Γραφῇ τοῦ ἀοιδίμου τὴν κεφαλὴν μεγαλοπρεπῶς στε-
φανῶσαι· φησὶ γάρ· “Ἦν δὲ Βαρνάβας ἀνὴρ ἀγαθὸς καὶ
πλήρης Πνεύματος ἁγίου καὶ πίστεως.” Οὗ τί ἂν γένοιτο
ἴσον ἢ παραπλήσιον πώποτε;

Je souhaiterais :

faire disparaître les numéros de ligne
transformer les guillemets en utilisant la commande \csquotes à la place.
supprimer les césures, puisque LaTeX se charge tout seul d’en mettre.

Voici le résultat souhaité :

Ἔκαμεν ὁ λόγος, τοῦτον τὸν θεσπέσιον καὶ τριπόθητον
Βαρνάβαν τὸν ἀπόστολον ἐπᾶραι τοῖς ἐγκωμίοις ποθῶν,
καὶ οὔπω ἥψατο τοῦ προοιμίου· τοῖς γὰρ ἐπαίνοις ἀπρό%
σιτος τυγχάνει ὁ θαυμάσιος. Διὸ ἀφέντες ὡς ἀνέφικτον 
τὸν περὶ τῶν ἐγκωμίων λόγον, ὀλίγα τῶν εἰς ἡμᾶς
ἰόντων περὶ τῆς τούτου βιώσεως καὶ τελειώσεως ἔκ τε
τοῦ Στρωματέως καὶ ἐξ ἑτέρων ἀρχαίων συγγραμμάτων
παραθήσομαι τῇ ὑμετέρᾳ ὁσιότητι, καὶ οὕτω τὸ πέρας
ἐπιθήσομεν τῷ διηγήματι, παραχωρήσαντες τῇ θεοπνεύστῳ 
Γραφῇ τοῦ ἀοιδίμου τὴν κεφαλὴν μεγαλοπρεπῶς στε%
φανῶσαι· φησὶ γάρ· \enquote{Ἦν δὲ Βαρνάβας ἀνὴρ ἀγαθὸς καὶ
πλήρης Πνεύματος ἁγίου καὶ πίστεως.} Οὗ τί ἂν γένοιτο
ἴσον ἢ παραπλήσιον πώποτε;

Je me sert pour cela du script Python joint.

Dernière version stable du script TLG2LaTeX

Utilisation (tutoriel)

Dans le TLG, afficher le texte sans les « Beta Escape » (dans la colonne de gauche, le menu déroulant « Beta Escape » mis à « None »).
Le copier dans un fichier nom.txt.
Avoir Python 3 ou plus installé sur sa machine.
Récupérer le zip joint, le décompresser, et mettre les deux fichiers .py à côté du fichier nom.txt
Avec son terminal, se rendre dans le dossier du fichier et frapper python3 tlg2latex.py nom.txt.
Un fichier normalise_nom.txt apparaît à côté : il contient le code utilisable dans LaTeX.

Nouvelles fonctionnalité de la version 2.0 [3]

Possibilité de configurer le script.
Possibilité de normaliser un fichier situé dans un autre dossier.
Gestion des élisions, pour éviter de confondre les signes d’élisions avec les guillemets ouvrants.
Prototype de gestion des numéros de chapitres et de paragraphes.
Possibilité de normaliser l’encodage unicode.
Ajout de jeu de test.
Standardisation du code.

Options de configuration

Le fichier de configuration config.py est à placer à côté du script.

Il se compose de ligne sous la forme :

option = valeur

L’ensemble des options sont listées dans default.py. Les valeurs peuvent être :

Des chaînes, mise entre guillemet anglais "chaîne".
Des tuples, ou listes, selon la syntaxe : ("chaîne1","chaîne2","chaîne...","chaînen").
Des chaînes pour remplacement d’expressions régulières [4], sous la forme : r« chaînes ».
Une valeur booléenne : False ou True

Les options se divisent en deux catégories :

Celles pour interpréter le fichier en entrée.
Celles pour régler le fichier en sortie.

Liste des options pour le fichier en entrée
Option	Explication	Valeur par défaut	Introduit dans la version
`hyphen`	Traits de césure	`("‑","-")`	2.0
`line_number_r`	Expression régulière pour décoder les numéros de lignes	`"\([0-9]*\)"`	2.3. Entre 2.0 et 2.3 était `line_number`.
`ellipsis`	Expression régulière pour repérer les ellisions	`"(([γδ(δι)θλμπρτφ(ἵν)])"`	2.0. Modifié en 2.6.
`begin_quote_r`	Expression régulière pour repérer les guillemets ouvrants	`"[‘“«]"`	2.0
`end_quote_r`	Expression régulière pour repérer les guillemets fermants	`"[’”»]"`	2.0
`paragraph_r`	Expression régulière pour repérer les numéros de paragraphe	`"\((\w+?)\.\) "`	2.0
`chapter_r`	Expression régulière pour repérer les numéros de chapitre	`"(\d+?\.)"`	2.0
`ndash_r`	Expression régulière pour repérer les tirets demi-cadratins	`"—"`	2.1
`begin_insert_r`	Expression régulière pour repérer le début des insertions.	`"<"`	2.2
`end_insert_r`	Expression régulière pour repérer la fin des insertions.	`">"`	2.2
`par_break_r`	Expression régulière pour repérer le début des nouveaux paragraphes.	`"^( )"`	2.2
`empty_line_r`	Lignes vides	`("","\r","\n")`	2.2
`before_stanza_r`	Ligne indiquant un début de poésie.	`" \n"`	2.5
`after_stanta_r`	Ligne indiquant une fin de poésie.	`" \n"`	2.5

Liste des options pour le fichier en sortie
Option	Explication	Valeur par défaut	Introduit dans la version
`begin_quote_w`	Guillemets ouvrants	`"\enquote{"`	2.0
`end_quote_w`	Guillemets fermants	`"}"`	2.0
`paragraph_w`	Chaîne pour remplacement d’expression régulière indiquant le numéro de paragraphe	`r"\\marginnote{\1}"`	2.0
`chapter_w`	Chaîne pour remplacement d’expression régulière indiquant le numéro de chapitre	`r"\n\\textbf{\1}"`	2.0
`unicode_normalize`	Indique le type de normalisation unicode à mettre en œuvre. Les valeurs possibles sont : `False` : pas de normalisation ; `"NFC"` : utilise les formes unitaires des caractères ; `"NFKC"` : utilise les formes unitaires des caractères et remplace les caractères « équivalents ». Par exemple le caractère unicode `U+216C` indiquant le chiffre romain `Ⅼ` (50) est remplacé par son « équivalent » `U+004C`, indiquant la lettre latine `L` ; `"NFD"` utilise les formes composées des caractères ; `"NFKD"` utilise les formes composées des caractères et remplace les caractères « équivalents »	`False`	2.0
`ellipsis_back`	Symbole d’élision	`"’"`	2.0
`ndash_w`	Tiret demi-cadratin	`"--"`	2.1
`begin_insert_w`	Début d’une insertion	`r"\\textins{"`	2.2
`end_insert_w`	Fin d’une insertion	`"}"`	2.2
`empty_line_w`	Ligne vide	`"\n"`	2.2
`line_number_w`	Chaîne pour remplacement d’expression régulière indiquant le numéro de ligne.	`""`	2.3
`last_regexp`	Série d’expression régulière et de chaîne de remplacement à appliquer au tout dernier moment. Par exemple j’utilise : `[ ("\s+(,\|·\|\.\|˙\|;)",r"\1"), ("·","˙"), (";",";") ]` l. 2 : évite les espaces avant les signes de ponctuations. l. 3 : remplace les points du milieu par des points en haut. l. 4 : remplace les points-virgules (`U+003B`) par des points d’interrogation grecs (`U+037E`).	`False`	2.4
`before_stanza_w`	Code de début de poésie.	`\stanza`	2.5
`after_stanza_w`	Code de fin de poésie.	`"\&"`	2.5
`between_stanza_w`	Code entre chaques vers.	`"&"`	2.5

P.-S.

Ce script est sous licence GPL 3. Ses auteurs sont :

Maïeul ROUQUETTE
Annette von STOCKHAUSEN

Il est disponible sur Github.

Notes

[1] On nous excusera par conséquent le caractère redondant de certaines parties de l’article.

[2] Il s’agit d’un extrait d’une louange à l’apôtre Barnabé.

[3] Comprend les nouveautés de la version 1.1.

[4] Pour comprendre les expression régulières, on pourra lire le tutoriel de la documentation de Python.

Vos commentaires

# Le 10 avril 2015 à 15:06, par julien En réponse à : Du Thesaurus Linguae Graecae à LaTeX

Merci pour les infos du thesaurus

Geekographie Maïeulesque