Utilisation d'OpenRefine pour le nettoyage des données
Description
OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. Il est similaire dans son apparence à un tableur mais fonctionne en fait comme une base de données. (https://fr.wikipedia.org/wiki/OpenRefine)
Mise en route
Page de téléchargement: https://openrefine.org/download
- Dézipper le dossier et lancer l'exécutable.
- Quand on ouvre OpenRefine, un terminal et une page web de votre navigateur s'ouvrent.
- Pas de crainte, le fichier reste en local.
Ressources utiles
Description: Tutoriel sous forme de cours donné à des étudiant-e-s. Très bien expliqué depuis la base.
A retenir:
- mise en route
- [14:40] enlever les espaces vides avant et après le texte
- la possibilité de faire des facettes texte
- [27:00] reconnaître des valeurs similaires - corriger les erreurs de saisie
- [41:33] mettre en forme des cellules en enlevant par exemple des [ ou des "
- edit cells >transform > value.replace("[","")
- [27:00] reconnaître des valeurs similaires - corriger les erreurs de saisie
- facette texte avancée pour permettre d'avoir des infos sur chaque item d'une même colonne
- cas: (pomme; banane; poire) dans les cellules -> je veux savoir le nombre de fois où chaque mot apparaît dans le tableau.
- [44:26] Facet > Custom text facet >value.split(";")
- [01:07]pour voir l'historique des actions, revenir en arrière si nécessaire, pouvoir exporter ses actions pour les reproduire sur un autre fichier
- [01:12] exporter ses données, sauvegarder son travail