-
Notifications
You must be signed in to change notification settings - Fork 1
Compte rendus des réunions HimalCo
Lieu : P7
Durée : 2h
Lien vers la page (cachée) Pangloss : corpus comparables
Le design des pages convient bien à Aimée. Comme discuté précédemment, une page "sélection" est à développer, avec possibilité de choisir le locuteur, la langue, le dialecte, l'histoire, la proto-histoire (trame), etc. Se référer à mes notes.
Aimée suggère d'intégrer le concordancier dans les pages des corpus comparables. Il faudrait donc avoir 2 concordanciers : un pour les corpus de la collection Pangloss déjà existante, et un pour les corpus comparables. Il est décidé d'intégrer un bouton "recherche" dans la page de résultats des similarités pour pouvoir afficher les résultats du concordancier sur les textes du corpus préalablement sélectionnés pour la comparaison.
Lien vers la page (cachée) Pangloss : dictionnaires
Une idée d'Alexis est d'ajouter la possibilité de choisir la ou les langues du dictionnaire : français, anglais, chinois, etc.
La version PDF avec MP3 intégrés est bien avancée. Une fois finalisée, on pourra la déposer sur Nakala et sur HAL, ainsi que le fichier MDF d'origine.
La demande a été faite. Un espace pour un site ANR HimalCo devrait être disponible très prochainement.
Prêt à l'usage. Guillaume demande à ce que l'on conserve l'information des noms des fichiers originaux. Il doit nous fournir les métadonnées relatives aux enregistrements sonores des dictionnaires afin que l'on puisse effectuer le dépôt. Les fichiers son du khaling vont être découpés à l'aide de la version d'évaluation de Sound Forge Pro (menu File > Export Regions). Il est conseillé à Alexis de procéder de la même manière pour les fichiers son du Na (dans un premier temps).
Guillaume souhaite déposer dès maintenant les fichiers d'histoires japhug de 2012 : les enregistrements sonores sont sur la baie du LACITO et les annotations sont sur GitHub. Il s'agit des fichiers commençant par "hist" et par la lettre "x". Les 2 chiffres qui suivent indiquent le jour (d'août ?). Les annotations ne contiennent que la transcription phonologique, qui sera simplement copiée dans la balise "TEXT" du format ITE, sans découpage en phrases. Guillaume va nous donner d'autres métadonnées relatives à ces histoires.
Aimée souhaite déposer les histoires qu'elle a déjà annotées (transcription phonétique, glose, traduction). Cela ne pose pas de problème pour les déposer sans la synchronisation. Elle va également nous donner les métadonnées relatives à ces histoires.
Alexis a commencé à rédiger un document à ce sujet. Il va nous l'envoyer ou le mettre en partage sur la Dropbox HimalCo afin que chacun y écrive ses remarques. On devra ajouter un paragraphe expliquant ce qu'on a fait jusqu'à présent.
Guillaume va envoyer le document avant son départ en mission, et un lien vers le site Pangloss corpus comparables et dictionnaires. D'ici-là, il faut gérer les doublons lx/se, les caractères de même rang pour l'ordre alphabétique, les références croisées (cf), les liens vers les fichiers son (stockés pour l'instant sur le serveur du LACITO), ajouter la possibilité de télécharger le PDF avec ou sans les MP3, sans oublier le logo ANR !
Le travail sur le dictionnaire en ligne Na va débuter mi-férvrier au lieu de début février, mais globalement on est dans les temps par rapport au planning établi lors de la dernière réunion. On maintient les tâches telles qu'on les avait définies. Dès la semaine prochaine, on travaille sur le dictionnaire khaling.
Prévue le vendredi 10 avril 2015 à 10h à Paris 7.
A l'ordre du jour : ?
Lieu : P7
Durée : 2h
Nous avons commencé par une présentation de l'avancement de mon travail et par quelques explications sur la librairie LMF que je développe.
J'ai avant tout rappelé que LMF est une norme ISO qui décrit deux choses corrélées entre elles :
- un schéma XML, qui décrit un format XML en particulier ;
- une modélisation UML, qui permet de décrire une architecture logicielle.
Il y a une correspondance directe entre les éléments et attributs XML d'une part, et les classes et attributs de classe d'autre part. Ces attributs sont à définir par l'utilisateur (j'entends ici par utilisateur quelqu'un souhaitant implémenter la norme LMF).
Un modèle LMF adapté à nos besoins avait été spécifié au mois de juillet sous forme de document LaTeX / PDF et diffusé aux chercheurs/ingénieurs intéressés par le projet.
L'implémentation en Python des différents packages LMF est en cours. Les packages de base sont pratiquement terminés. Il reste notamment à implémenter le package Resource, extension à proposer pour l'enrichissement de la norme afin de gérer les enregistrements sonores et les locuteurs (ou photos et vidéos si besoin). Cette base constitue le noyau de la librairie, noyau qui se veut générique.
En parallèle du développement, j'écris des tests unitaires (chaque fonction écrite est testée de manière indépendante). On peut également connaître la couverture des tests, c'est-à-dire le pourcentage des lignes de code testées ou non. Une syntaxe de commentaires particulières dans le code source permet de générer automatiquement une documentation en ligne à l'aide de Doxygen.
Afin de compléter cette documentation, il reste à écrire un "user guide"/"how to"/"tutorial" destiné à l'utilisateur final de cette librairie. Pour cela, Guillaume se propose de m'aider à l'écrire, et Aimée se propose de jouer le rôle de l'utilisateur "naïf".
L'objet de cette librairie est de s'abstraire du format d'entrée en convertissant tout d'abord les données MDF en LMF. A partir de ces données en LMF, la librairie propose différents formats de sortie : MDF, XML LMF, LaTeX, HTML (via XSL), docx (en cours de développement, à voir si on peut avoir une sortie en RTF ou ODT). Une configuration MDF par défaut, se basant sur les spécifications MDF, est implémentée de manière générique. Les paramètres relatifs à la structure de ces fichiers d'entrée/sortie sont personnalisables pour chaque dictionnaire.
Il y a donc un travail de configuration à faire en collaboration avec chaque chercheur : marqueurs MDF utilisés et signification en LMF, ordre des marqueurs MDF, "range" des valeurs de "part of speech" ou autre (une idée est qu'elles soient configurables dans un fichier texte), rendu visuel en PDF et en HTML, vérification d'une certaine cohérence (comme les homonymes ou bien les "related forms"), etc.
Idées d'amélioration :
- Ajouter un attribut "caché" ou bien plus générique "registre de langue" pour les exemples (classe Context) ainsi que dans la classe Sense
- Passer l'identifiant de LexicalEntry sur deux digits (un seul actuellement) et utiliser une forme XSAMPA
En plus de ces transformations d'un format vers un autre, il est prévu que la librairie offre un certain nombre de fonctionnalités utiles aux chercheurs. Voici un début de liste (à enrichir au fur et à mesure de l'avancement du projet) :
- Tri par ordre "alphabétique" configurable, selon le champ souhaité (c'est-à-dire lexème, partie du discours, glose, etc.)
- Tri par ordre thématique
- Moteur de recherche d'un mot dans le dictionnaire (exemple donné par Alexis)
- Lors de la conversion MDF -> LMF, renvoyer à l'utilisateur une liste des marqueurs MDF non standards et lui permettre de créer une configuration personnalisée
- Intégrer un tableau de paradigmes dans le XML et bien sûr à l'affichage : collaboration avec Benoît Sagot à prévoir pour le khaling
Séverine a travaillé sur la valorisation du logo ANR sur les pages Pangloss. C'est en cours d'élaboration, ce sera bientôt en ligne.
Alexis conseille de s'y prendre dès maintenant pour faire une demande de prolongation à l'ANR.
En parallèle, on pense à demander au Labex (axe 6) ou au CRLAO de me faire un contrat de prestation de service, ce qui est possible avec mon statut d'auto-entrepreneur.
Donc plusieurs pistes pour 2016.
Décembre : finalisation de la librairie LMF, notamment le package Resource mentionné plus haut, et la fonctionnalité permettant de classer les entrées.
Janvier : configuration dictionnaires japhug et khaling (MDF, PDF, HTML). Design des pages web avec Séverine et intégration des fichiers audio à la page / au PDF. Intégration du script Perl pour le devanagari.
Février : configuration dictionnaire na (idem).
Puis (ou en parallèle de certaines tâches) :
- Traitement et archivage des corpus sur Cocoon
- Dépôt des fichiers son sur Nakala
- Site sur HumaNum. On s'est mis d'accord pour que le contenu du site soit simple : présentation du projet puis liens vers le blog, les pages dico et corpus parallèles qui seront intégrées dans Pangloss, la librairie LMF qui sera en open source sur GitHub ou autre.
Deadline : avoir les dictionnaires et les corpus en ligne en mai/juin 2015.
Prévue le vendredi 30 janvier 2015 à 10h à Paris 7.
A l'ordre du jour : présentation d'une version HTML du dictionnaire japhug avec lien vers les enregistrements sonores, stockés sur Cocoon ou Pangloss. Ainsi qu'une version PDF avec audio (MP3) intégré (exemple montré par Guillaume). Mise en ligne avec accès privé du proto pour les corpus parallèles.
Lieu : rue de Lille
Durée : 3h30