-
Notifications
You must be signed in to change notification settings - Fork 1
Mise en page des dictionnaires
Cette page a vocation à accueillir les échanges au fil de l'élaboration des formats de mise en page des dictionnaires ("page layout"). La page Wiki a vocation à garder la mémoire des échanges et des choix.
deux formats de consultation, au choix de l'utilisateur :
- version **HTML **en ligne
- version **PDF **au format A4, conçu plutôt pour lecture sur écran (utilisant des couleurs), mais pouvant être imprimée. Par ailleurs il peut être utile d'avoir diverses versions par langues: par exemple pour le na, un dictionnaire na-français-chinois et un dictionnaire na-anglais-chinois (argumentaire ci-dessous). Cela donnerait donc 2 versions PDF. Pour la version HTML, serait-il possible d'offrir un choix des langues à l'utilisateur (comme pour la consultation des textes dans l'interface Pangloss)? Cocher/décocher les langues en haut de la page; par ex., si les langues de traduction offertes pour le dictionnaire na sont chinois, anglais et français, l'utilisateur pourrait consulter en mode na-chinois, ou na-anglais, ou na-français, ou en combinant les langues.
Suggestion de Céline: ne pas passer trop de temps à fignoler la sortie PDF; concentrer plus d'efforts sur le design de la version HTML, où il y a un gros boulot de spécification, même s'il n'y a pas de complexité technique particulière. Pour le PDF, l'enjeu serait simplement que ce soit lisible, et contienne les bonnes infos. C'est un travail de design de ma part et de relecture de votre part afin d'améliorer et corriger si besoin les entrées lexicales, et pour noter tous les défauts que je dois corriger (les tons sont un bon exemple, car il en reste quelques-uns qui ne sont pas affichés correctement).
Ce qu'on pourrait faire pour que le PDF soit "citable" tout en étant évolutif, c'est déposer des versions successives du PDF dans HAL, qui assure leur conservation stable/pérenne et gère sans difficulté les versions. Version 1, version 2, version 3... (1 version par an? et/ou quand ça a bcp progressé?) Le dictionnaire en ligne en HTML pourrait, lui, être mis à jour sans souci de numérotation de versions.
Versions nécessaires pour Alexis : 2 versions du dictionnaire : na-français-chinois, et na-anglais-chinois
Explication : Quatre langues, je trouve ça trop pour 1 seul document. Pour moi c'est surtout le français et l'anglais dont la juxtaposition gêne: je trouve ça désorientant d'avoir ces 2 langues en caractères latins sur la même page. Français ou anglais, ça va, mais les deux non. (Le na, c'est en API, le chinois c'est en caractères chinois, visuellement c'est distinct du reste.)
Je pense que pour les usagers anglophones ou sinophones, en gros anglais et chinois sont pas contradictoires ni gênants. Il faut donc une version na-anglais-chinois.
Et "pour moi" (logique égoïste, mais pour l'instant je suis le plus gros utilisateur!) il faudrait une version française
Le format est le même pour le dictionnaire na-cn-fr et pour le dictionnaire na-cn-en; la différence c'est le remplacement du français par l'anglais, pour la version na-cmn-eng: dans les champs, et aussi dans les éléments fixes de chaque entrée: ex. "Tone:" vs. "Ton :" avant le ton.
En français, mettre un espace insécable avant la ponctuation ; : ? ! tandis qu'en anglais on n'en met pas. (Note 28 mai 2014: attention, ça doit être un espace insécable)
Format des entrées :
Toutes les informations contenues dans le format MDF ont vocation à être affichées, sauf celles qui portent la mention contraire: print="n"
<\lx> (prononciation: \lc; avec le verbe copule: \lc <type="with copula">) TAB <\ps> TAB Ton: <\np <type="tone">>. S'il y a une note étymologique: De : <\et> RETOUR CHARIOT <\df>. RETOUR CHARIOT <\dn>。 Dialecte chinois local: <\gr>。 s'il y a quelque chose dans le champ \bw: indiquer (fra) "Emprunt : <\bw>"; (eng) "Borrowing: <\bw>" RETOUR CHARIOT \xv RETOUR CHARIOT \xf (ou xe selon le type de dictionnaire) RETOUR CHARIOT \xn (répéter pour tous les exemples)
\xn \xf
en clair:
- la forme en API, en grand (comme maintenant);
- entre parenthèses, précédé de la mention "prononciation"/"pronunciation" : la forme en API, avec les tons tels qu'ils se réalisent lorsque le mot est dit de façon isolée, et, après une mention "avec le verbe copule:", la prononciation lorsqu'il est suivi du verbe copule (pour les noms). Pour ça il faudra appliquer un petit nombre de règles simples; c'est utile et c'est une bonne vérification des règles; cf "Issue" 41, https://github.com/CNRS/HimalCo/issues/41
- une tabulation;
- la partie du discours (en couleur, comme maintenant; et en petites majuscules);
- une tabulation;
- le ton, précédé de la mention "Ton" ("Tone" pour la version anglaise du dictionnaire) et suivi d'un point; puis les définitions, chacune sur une ligne séparée :
- définition en français (respectivement en anglais), avec majuscule au 1er mot et point final à la fin (et espace);
- définition en chinois, suivie du point final de la typographie chinoise: 。sans espace après.
- si le champ "chinois régional" (gr) est non vide: l'indiquer précédé de la mention "Local Chinese dialect: " / "Dialecte chinois local: "
- Ensuite les exemples, non numérotés, avec traduction française (ou anglaise selon le dictionnaire) et chinoise, et commentaires.
- Ensuite le(s) classificateur(s), précédé de CL: (en petites capitales; avec un espace après les deux points)
**Petite modif par rapport à la version initiale de format envisagé (5 avril 2014): ** faire apparaître les définitions sur des lignes différentes: avoir les définitions dans les diverses langues sur des lignes différentes. Par ex., au lieu des 3 infos "ton", "dn" et "df" sur la même ligne (ex.: Ton : LM+MH#. 鸡年. Année du coq.) avoir la forme suivie du ton (les 2 sont bien distincts typographiquement, c'est super), puis les définitions : æ˩-kʰv˧˥ Ton : LM+MH#. 鸡年. Année du coq. (C'est déjà comme ça que sont les exemples: 1 ligne par langue, et ça me paraît visuellement bien.)
Fait dans le commit : 1fc679c.
Pour les mots qui ont deux \sn ou plus, attention de les faire figurer dans l'ordre croissant: dans la version du 27 mai 2014, "trou" et "terrier" (p. 192) ne sont pas dans le bon ordre, "terrier" (sens 2) figure en premier. Là j'ai corrigé à la main. Mais il faudrait intégrer dans le script une vérification pour les entrées complexes comme celles-ci: vérifier que la numérotation est en ordre et que la forme (\lx) est bien la même.
Exemple qui reste à corriger : /lo˧/ 'Occupation, travail, tâche' (premier sens) qui figure actuellement (p. 121) après le sens secondaire 'Utilité'.
Plus on peut intégrer d'automatisation, mieux c'est. Par exemple: mise en majuscule de la 1e lettre des définitions fr et en; ajout d'un point après les définitions, s'il n'y en a pas dans le champ; vérification qu'il n'y a pas de champ vide et qui ne devrait pas l'être (ex.: tous les mots devront avoir des définitions et gloses: fr, cn, en).
Ce serait bien de réduire un peu les marges, pour éviter d'avoir des colonnes trop étroites pour les exemples.
Fait dans le commit cafc838. Les marges sont désormais ajustables au niveau de la dernière ligne du fichier preamble_AM.tex.
Les caractères codés à l'intérieur des champs par "fn:" (pour "forme dans la langue nationale") ou "fv:" etc sont à afficher avec une police appropriée. Par ex. en fin de page 34 (toutes les réf. sont à la version française+chinoise), "le sens de l’expression tend actuellement à se confondre avec celui de l’expression chinoise fn:" Et la mention "métalinguistique" fn:, fv:, qui est une simple balise, n'a pas vocation à apparaître dans la version affichée (sur le web ou en PDF). On pourrait essayer une mise en valeur par la couleur pour les diverses langues: par exemple un bleu foncé et en gras pour toutes les formes en na; et un rouge/brun foncé pour le chinois?
Fait dans le commit 643b97c.
De même, le symbole ° dans les traductions des exemples ne doit pas apparaître tel quel, c'est une indication typographique: ce qui suit est à mettre en petites capitales, c'est une abréviation. Par ex.: °clf indique que c'est un classificateur; le ° signale qu'il faut mettre clf en petites capitales. (Convention de Guillaume, que j'ai adoptée.)
Fait dans le commit 0b493b2. Problème rencontré pour l'affichage en petites capitales : la police par défaut (CharisSIL) ne supporte pas les petites capitales. Quelle police utiliser à la place ? Sachant que ça peut être une police utilisée uniquement pour cet affichage. Réponse Alexis : Doulos SIL ?
bizarre bizarre, actuellement il semble que diverses notes de type \np sortent dans le dictionnaire avec l'indication "Ton:". Par exemple p. 4, colonne de droite: æ˩bi˩ Ton : indication de Roselle: ”/wæ̃.bi/. The speaker who told me this word comes from the Yunnan side ( in Chinese), north of where your Ama comes from.”. Ton : L.
Dans le document Dictionary.txt, il y a pourtant ce qu'il faut comme codage. Les 2 notes sont codées comme \np, mais la première sans autre indication, et la deuxième sous la forme \np <type="tone"> L qui indique bien que c'est là le ton (<type="tone">).
- Les guillemets ouvrants sont actuellement des guillemets fermants. Pareil pour apostrophes (guillemets 'simples' et "doubles").
- Lettres en tête de chapitre: pour l'instant il y a diverses formes API, c'est joli ex.: A a æ ɑ ɐ mais c'est gênant d'avoir des symboles qui ne font pas partie de ceux utilisés pour la langue en question. Je préférerais qu'il y ait 1 "chapitre" par symbole. Par exemple, ɑ et æ sont actuellement groupés; il faudrait que chacun ait "son" chapitre. Autrement dit on continuerait de se baser sur les ressemblances entre symboles API et alphabet latin pour l'ordre des "chapitres" (ex.: ɑ comme 1er chapitre, æ comme 2e chapitre, puis b etc), mais sans regrouper les symboles sur la base du caractère latin le plus proche. Ex.: t et ʈ constituent des "chapitres" différents. Ordre des symboles: ɑ ɑ̃ æ b ɕ d dz dʑ ɖ ɖʐ e ɤ ə f g ɣ h i ĩ j ʝ k kʰ l ɬ m n ɳ ɲ ŋ o õ p pʰ q qʰ ɻ ɻ̃ ʁ s ʂ t tʰ tɕ tɕʰ ts tsʰ ʈ ʈʰ ʈʂ ʈʂʰ u ɯ v w w̃ z ʐ ʑ Rappel: Entrées lexicales commençant par '', '=' ou '-': les classer dans l'ordre alphabétique du caractère qui suit '', '=' ou '-', mais en laissant ce caractère spécial.
Après les "initiales" (ci-dessus), classer par rimes également en bon ordre: par ex.: ʈʂʰɑ puis ʈʂʰæ puis ʈʂʰɤ, etc. Enfin, classement par tons: dans l'ordre ˥ ˧ ˩ ˧˥ ˩˥ ˩˧, par exemple: entrées ʈʂʰæ˥, ʈʂʰæ˧, ʈʂʰæ˩, ʈʂʰæ˧˥.
-
p. 4, colonne de gauche: sais pas pourquoi les indications à mettre en indice n'apparaissent pas en indice? æ˩1 avec le 1 "normal" au lieu d'un 1 en indice, etc (comme je vais utiliser ça comme doc de travail avec des étudiants en août, ce serait bien d'avoir une version bien propre -- l'attention des étudiants peut être attirée par des détails non pertinents comme celui-ci)
-
ajouter le premier mot de chaque page sur le header de gauche et le dernier mot de la page sur le header de droite
-
laisser plus de place entre les colonnes Pour l'instant ça se touche presque, par endroits. Ce serait bien d'avoir environ 6 mm à 1 cm entre les 2 colonnes (pourquoi pas essayer 8 mm pour commencer), et peut-être une ligne fine.
-
cas des entrées dont la forme lx est simplement '*' (une astérisque): ça veut dire que le locuteur/informateur ne peut rien fournir d'équivalent. Traitement dans le dictionnaire : il y aurait une section en fin de dictionnaire, avec pour titre: (en) Words for which no close equivalent could be found (fr) Mots dont aucun équivalent n'a été trouvé Les concepts sans équivalent / inconnus figureraient dans cette Annexe, avec comme message d'introduction:
(en) The list that follows groups words for which no close equivalents could be found. These negative pieces of information contain hints about the consultants' Na vocabulary and its 'soft shoulders'. (fr) Cette liste regroupe les mots dont aucun équivalent n'a été trouvé. Même s'il ne s'agit que d'informations négatives, elles éclairent les limites du vocabulaire na des consultants.
La liste se présenterait sous forme d'un simple tableau en 2 colonnes: anglais (ou français) et chinois. Les formes fournies (en/fr +cn) seraient la glose et non la définition.
Ajouts du 31 août 2014, sur la base du travail sur la version PDF d'août:
- ordre des entrées: actuellement, trié par les caractères, à partir de la 1e syllabe. Les tons sont classés APRES les lettres. Conséquences: le monosyllabe æ˩˧ 'poulet' figure en page 5. Il faudrait que tous les monosyllabes /æ/ apparaissent les uns après les autres, en tête de l'entrée "æ". Pour ce faire: mettre les marques tonales APRES les symboles des consonnes et voyelles dans la liste qui sert à ordonner. Ainsi, /æ˧ʝi˩/ (æ˧ suivi de ʝ)apparaîtra APRES æ˩˧ (æ˩ suivi de ˧), et non avant comme c'est le cas à présent.
Il faut également séparer les entrées p et pʰ; d, dz, ɖ, dʑ, et ɖʐ; j et ʝ; k et kʰ; ɳ et ɲ; q et qʰ; s et ʂ; t et tʰ et ʈ et ʈʰ et tɕ et tɕʰ, ts, tsʰ, ʈʂ, ʈʂʰ. (10 initiales confondues dans une même entrée :-) ) (la liste avec l'ordre des symboles figure plus haut sur cette page) L'initiale concernée, et elle seule, doit apparaître en tête de chapitre (=section), en minuscules (pas de majuscules pour l'API): pʰ tɕ ɲ etc Exemple de bonne séparation, dans la version du 5 août: ʑ, tout seul dans sa section, avec cette seule initiale en tête de section/chapitre. Un peu moins bien pour ʐ: il a sa section à lui, mais en tête il y a 2 symboles, dont un jamais utilisé pour le na (c'est celui de la consonne finale de "rouge" en français).
- pour les exemples, \xv: afficher entre crochets, avant l'exemple, le code du locuteur, si ce code est autre que F4. Exemples:
-
exemple dû à F4: pas de mention spéciale
-
exemple dû à F5:
\xv æ˧qæ˩-bɑ˩lɑ˩ \xe vivid-coloured, blue-green jacket: literally 'parrot(-coloured) jacket' \xn 青、蓝色、绿色衣服 \xf vêtement bleu; littéralement vêtement 'couleur perroquet' \rf F5
ajouter une mention, dans le dictionnaire au format PDF: [F5] æ˧qæ˩-bɑ˩lɑ˩
-
entrées commençant par un tiret: les faire figurer dans le dictionnaire à l'endroit où elles seraient si elles n'avaient pas le tiret. Autrement dit, ignorer le tiret lors du tri pour ordonner les entrées.
-
les commentaires phonologiques de nature "Ton" ne devraient pas apparaître dans le dictionnaire.
-
la 1e entrée de chaque section du dictionnaire ("chapitres" : 1 chapitre par lettre) est systématiquement décalée: la ligne où apparaît la forme \lx n'a pas la même marge que les entrées suivantes.
-
à voir : peut-on mettre PLUSIEURS commentaires \xc? L'un étant par ex. "proverbe", et l'autre une explication au sujet de particularités phonologiques du proverbe
-
perte du ~ des rédupliqués? à vérifier
-
introduit un : \cf <type="syn"> pour les synonymes
-
étymologie: quand on sait d'où vient un composé disyllabique: indiqué les 2 syllabes séparées par un point-virgule suivi d'un espace. Exemple: \et pʰv˧ 2; ɖɯ˩a Le "a" dans "ɖɯ˩a" est une indication de ton: c'est le ton La (distinct de Lb). Le "2" dans "pʰv˧ 2", séparé de la transcription par un espace, est le numéro d'homophone. L'espace est nécessaire pour faire la différence entre les distinctions de sous-catégories 1, 2... (pour les classificateurs) et les numéros d'homophone: "pʰv˧2" serait un classificateur /pʰv/ au ton L2; "pʰv˧ 2" est un mot dont la forme phonologique est /pʰv˧/ (ton moyen), et qui porte le numéro 2 dans le champ "homonyme" (\hm 2).
-
définitions : certaines ont un point d'exclamation ou d'interrogation à la fin (ex.: onomatopées). Dans le script: voir s'il y a un signe de ponctuation à la fin de la définition: point, point d'interrogation ou point d'exclamation. Pour le chinois: 。!? S'il n'y en a pas: ajouter un point. (Exemples: laisser tel quel; les phrases complètes ont un point et les expressions n'en ont pas.)
-
génération automatique d'un champ "pinyin": chinois romanisé
-
vérifier si la structure en sous-entrées est bonne pour: POISON (nom; codé comme \lx) EMPOISONNER (verbe transitif; codé comme \se, avec numéro de sens: '1': \sn 1) DETESTER (verbe transitif; codé comme \se, avec numéro de sens: '2': \sn 2)
-
mots complexes, avec séparation par '-': si le schéma tonal indiqué n'indique pas de division, l'appliquer au mot entier sans tenir compte des divisions indiquées par '-'. Exemple: di˩-gɤ˩lɑ˥: le ton indiqué pour ce mot est L+H#. L'appliquer aux syllabes comme s'il n'y avait pas de divisions à l'intérieur du mot: di.gɤ.lɑ assignation: ton H sur la dernière syllabe ce qui donne: di.gɤ.lɑ˥ puis association du ton L à la première syllabe di˩gɤ.lɑ˥ et extension (propagation) du ton L à la syllabe qui suit, puisque celle-ci demeure sans ton à ce stade de la dérivation. di˩gɤ˩lɑ˥