Introduction
Tout ce que notre tableau exige de nous est que chaque cellule de données soit comme une mallette d'argent prête à être déposée par un banquier dans un paradis fiscal.
http://farm9.staticflickr.com/8071/8413876946_529bb56d80_z_d.jpg Image by Hair in the Gate. License unspecified: permission asked for in comments field (01/2013)
Il contient un seul type d'objet, parfaitement rangé, et de manière prévisible en unités standards. Et peut-être même qu'il sent bon. Le tableau est heureux dans cette situation et peut-être nous récompensera-t-il en comptant, triant, livrant des graphes, etc. Cependant ce que nous donnons souvent à notre tableau ressemble plus à un choix enfantin de choses essentielles à emmener à la plage.
http://farm9.staticflickr.com/8372/8412778391_56424a2a10_o_d.jpg Image by Science Education Resource Centre. License CC-NC-SA 3.0.
Mais notre tableau nous punira de ce genre de bazar : beaucoup d'objets, avec des caractéristiques différentes, tous mélangés dans le même espace étroit. Que peut-on faire pour organiser ce bazar ?
A la fin de cette section, vous aurez :
- analysé les données pour mettre en évidence les problèmes selon la structure du tableau ;
- changé la structure des données afin de rendre le tableau plus utile ;
- des idées sur ce qu'il faut éviter dans votre propre travail avec les données.
Un peu de travail Pour faire à la fois les tâches rapides et plus longues ci-dessous, vous aurez besoin de :
- un tableur comme Excel ou Libre Office ;
- une copie du jeu de données du cours : les données de GRAIN sur l'accaparement de terre.
Une tâche rapide (15 minutes)
Téléchargez cette feuille de calcul et suivez les étapes qui suivent. Cette section utilise des fonctionnalités des feuilles de calcul pour lesquelles de l'aide peut être trouvée plus loin, dans les lectures complémentaires. Mais essayez d'abord !
Pour commencer, appliquer un AutoFiltre aux données. Continuez de revenir sur l'Autofiltre pour voir comment les données changent à chaque étape.
Pour illustrer ce problème, disons que vous collectez des données sur qui participe aux réunions dans votre entreprise pour vérifier l'activité de vos collègues. (On espère que votre organisation n'a pas atteint un tel niveau de confiance !) La manière la plus intuitive de faire serait de faire comme dans cette feuille de calcul : http://farm9.staticflickr.com/8352/8413876968_4c80101fd5_o_d.png
Mais les feuilles de calcul ne sont pas intuitives. Vous ne pouvez pas utiliser ces données pour produire un simple rapport de participation avec des outils pratiques comme AutoFiltre ou un tableau croisé dynamique. La raison : le tableur voit le texte dans chaque cellule comme un paquet de données, comme si une personne “Allan, Rastus, Carl, Tito” a participé au rendez-vous de lundi. Pour utiliser plus facilement les données que vous avez en face de vous, la situation idéale est d'avoir une seule information du même type dans une cellule.
Alors, séparons les données, d'abord dans différentes colonnes. Cela peut être fait automatiquement en utilisant la fonctionnalité de conversion de "Texte à Colonnes". Sélectionnez les données dans colonnes B, et cliquez sur Données --> Text à colonnes. Sélectionnez la virgule comme "séparateur". Vous obtiendrez quelque chose comme ceci (vous devez donner un nom aux colonnes vous-même) :
http://farm9.staticflickr.com/8331/8413876976_7cf07b0fbb_o_d.png
(Après avoir fait cela, vous allez avoir des espaces blancs (invisibles). Révisez ce problème dans l'exercice précédent "L'Homme Invisible"…)
Alors, disposer le texte entre les colonnes améliore les chances d'analyser les données, mais pas tant que ça. Si votre équipe est plus grande, cette feuille de calcul peut devenir difficile à utiliser. Pourquoi pas prendre les données et les renvoyer sous une forme verticale ? On appelle cela "transposer". Vous pouvez faire cela manuellement ou essayer automatiquement en utilisant la fonctionnalité "Coller spécial" : http://farm9.staticflickr.com/8213/8412778355_1dfb32daef_o_d.png
Bien mieux comme ça ! Toutefois, pour avoir un bref aperçu des données, nous avons de la mise en forme pour rendre visible les données qui manquent dans la colonne du jour de la réunion. Mais c'est une très mauvaise idée (pour savoir pourquoi, regardez la section 1 "Noisettes et chewing gum").Il nous faudra ajouter des données dans la colonne A comme ici : http://farm9.staticflickr.com/8351/8412778335_22c13b66d6_o_d.png
Cette approche permet de trier, filtrer et créer un tableau croisé dynamique. Essayez le ! Vous pouvez maintenant facilement produire des reports de participation aux réunions.
Une tâche longue (30 minutes – 2 heures)
Dans le chapitre relatif au nettoyage des données dans le manuel de la manipulation de données, parcourir "Problème 5 : problèmes de structure – données à des places inappropriées" utilisant le jeu de données de GRAIN. C'est un exercice plus détaillé qui se penche sur ce que des investisseurs en terres de grande taille ont dit de ce qu'ils feraient de ces terres. Il montre comment le sujet est catégorisé et fait remonter les difficultés à enregistrer les multiples usages de terres dans un tableau. Il vous montre comment utiliser le filtrage pour surmonter les difficultés liées à des données mal structurées.
Si vous vous sentez très courageux, essayez aussi "Problème 6 : "des babanes aux bananes" ou comment traiter les erreurs dans les données. C'est un exercice avancé qui vous mènera à travers le processus d'éclatement, de correction et de reconstitution d'un jeu de données volontairement erroné pour vous permettre d'en tirer plus. Il fait appel à une série de fonctionnalités de tableur incluant des colonnes au format texte, des expressions régulières, des tableaux croisés dynamiques, la mise en forme conditionnelle, la validation et la concaténation de données. C'est un chemin escarpé, mais à la fin, vous verrez les données différemment.
Liste de lecture
-
Dans le court exercice, nous avons utilisé les fonctions suivantes: *La fonction "texte à colonnes", qui est extrêmement utile pour le traitement de la question de la "mauvaise valise". Voici un tutoriel pour utiliser cette fonction dans Excel, un autre pour Open Office (et Libre Office). Il se peut que vous soyez contrarié par le fait que Google Spreadsheet n'a pas à proprement parler de fonction "texte à colonnes" ! Cependant, la fonction "SPLIT" fait la même chose, comme décris dans ce tutoriel. *La fonctionnalité "transposer", qui échange les lignes et les colonnes, est parfaitement décrite pour Excel dans le tutoriel de Tech Republic, et pour Open Office par Solveig Haugland sur son "Open Office Training Blog" (blog d'entraînement à Open Office).
-
Le Guide du Data et du Design du "Tactical Technology Collective" comporte un court chapitre nommé "Growing out of Spreadsheets", qui traite principalement du problème de la "mauvaise valise". Il se penche sur les difficultés de l'utilisation de feuilles de calcul lorsque vous avez des données qui décrivent des relations dynamiques et complexes.
Reposez-vous et réflechissez
Qu'est-ce que le problème de la "mauvaise valise" nous révèle des enregistrements de données dans les tableurs ?