Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Où stocker les autorisations des locuteurs, et les métadonnées confidentielles? #8

Open
alexis-michaud opened this issue Sep 14, 2017 · 11 comments
Labels
enhancement New feature or request help wanted Extra attention is needed

Comments

@alexis-michaud
Copy link
Contributor

Il faudrait avoir un lieu où stocker, de façon non publique,

  • les autorisations signées par les locuteurs, si on en a
  • et les métadonnées confidentielles concernant les locuteurs. Pour la recherche, c'est utile en principe d'avoir le plus d'infos possibles sur les locuteurs: date de naissance, lieu de naissance, expérience linguistique, taille/poids, antécédents médicaux, et plein d'autres. Bien sûr il ne faut pas mettre ça en libre accès.

Où est-ce que ça pourrait être stocké, de façon à ce que ce soit bien archivé (=pas à la merci d'un oubli lors d'un passage d'un disque à l'autre, d'un serveur à l'autre...) et bien relié aux ressources concernées?

@Tavalmayam
Copy link

Tavalmayam commented Sep 14, 2017 via email

@sguillaume
Copy link

Je pense, pour commencer, qu'il nous faut réfléchir à un lieu de stockage pour ces informations.
Qu'elles soient récupérables ou non pour un logiciel particulier est secondaire.
D'autant plus que SayMore n'est pas tellement utilisé et surtout les imports c'est juste galère.
S'il fallait absolument choisir un outil je dirais qu'Arbil est plus logique.

Bref, trouvons déjà une solution de stockage.

@Tavalmayam
Copy link

Tavalmayam commented Sep 17, 2017 via email

@alexis-michaud
Copy link
Contributor Author

Ca serait du ressort de Nakala, non?

@Tavalmayam
Copy link

Tavalmayam commented Sep 17, 2017 via email

@alexis-michaud
Copy link
Contributor Author

alexis-michaud commented Sep 17, 2017

Pour les autorisations, ce serait fichier par fichier. Allez je me lance. Syntaxe du nom de fichier :

<code langue>_<code locuteur>_<année>

(je crois que j'ai maxi 1 autorisation par an)

et aussi "CC" pour "CreativeCommons", quand c'est ça la licence choisie.

Exemple : NRU_F4_2017_CC.pdf

Je laisse le format d'origine : JPG, PDF... Ce sont des scans ou photos du document papier signé.

Je crée un dossier "licenses_authorizations" dans le repositoire GitHub "Pangloss". Je proposerais qu'on mette tout à plat.
Question à Séverine : souhaites-tu qu'il y ait 1 dossier par déposant? Ou on met tout à plat dans le même dossier? Pour l'instant je mets tout à plat.

Ensuite, dans les métadonnées des documents (=pour chaque document), on ajouterait la référence au fichier scanné.

Les métadonnées, j'en garde 1 copie dans le document Excel qui me sert pour la saisie (et dont les métadonnées sont extraites par un script de Séverine lors des dépôts).

alexis-michaud referenced this issue in CNRS-LACITO/Pangloss_website Sep 17, 2017
@alexis-michaud
Copy link
Contributor Author

alexis-michaud commented Jul 2, 2019

Une info en direct de la Journée d'étude "Questions éthiques & cadre juridique autour des corpus langagiers" : le laboratoire ICAR (Lyon) scanne et conserve les autorisations écrites dans un stockage numérique hors réseau : disques durs en "armoires fortes" à accès restreint.

@alexis-michaud
Copy link
Contributor Author

@sguillaume si tu avais l'occasion de lancer la discussion à l'échelle de Cocoon...?
Pour lutter contre la déperdition de métadonnées et de documents papier (de même qu'on lutte contre la déperdition de données). Ce n'est pas évident de remettre la main sur des documents qu'on garde quelque part sans lieu de dépôt.

@alexis-michaud alexis-michaud added enhancement New feature or request help wanted Extra attention is needed labels Feb 10, 2021
@alexis-michaud
Copy link
Contributor Author

En direct d'une journée de formation "La protection des données personnelles dans les projets de recherche" : même demande émanant d'autres projets et d'autres unités de recherche. Huma-Num ni le CINES ne considèrent être directement responsables d'héberger des autorisations. Un travail est nécessaire pour articuler l'archivage des données (archivage pérenne) avec l'archivage de données à caractère personnel, plus souvent traité en termes d'archivage courant et archivage intermédiaire. Un archivage pérenne de "méta-documents" est-il possible ?

À suivre.

@sguillaume
Copy link

sguillaume commented Jul 4, 2022

Pour la conservation des autorisations des locuteurs (et autres) et des informations de métadonnées non diffusables :

  • Stocker au niveau de la personne ? du labo ? d'une institution ?

Idée :

  • Stocker au niveau du labo sur l'espace Lacito de l'Huma-Num Box. Doubler par une conservation papier ? Sur la baie ?
    (Mais pas de pérennité dans la sauvegarde car pas d'archivage)
    Il n'y a aucune solution directement pérenne aujourd'hui.
    Mais les questions commencent à se poser, il serait intéressant d'anticiper en commençant avec un lieu de sauvegarde temporaire et une structuration dans le stockage et la description en attendant un versement dans un lieu plus pérenne

Propositions pour le stockage :

  • crypté ou non ?
  • Un répertoire par déposant
    -> le document dans son format original (plus une version pdf ?)
  • un tableur listant toutes les autorisations ainsi que la liste des ressources concernées par l'autorisation ?
    -> Définir un fichier type
    -> Lister les ressources, corpus, langues qui sont concernés par une autorisation (il faut conserver l'information de quelle autorisation pour quel ensemble de données). Avec leur identifiant oai et ark au minimum.

Est ce que l'on fait un tableur par déposant ou un csv général ?
Un tableur général permettra une meilleure vue d'ensemble de ce que l'on stocke.

@alexis-michaud alexis-michaud transferred this issue from CNRS-LACITO/Pangloss_website Oct 19, 2022
@maxime-fily
Copy link

Je souscris totalement à la proposition de @sguillaume : stockage en local. Ma pierre à l'édifice : archivage sur bandes magnétiques. C'est encore largement utilisé, mais je ne sais pas si c'est aisé à mettre en place. un article du monde informatique en parle : https://www.lemondeinformatique.fr/actualites/lire-pourquoi-l-archivage-sur-bande-est-toujours-d-actualite-73237.html
A voir...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests

4 participants