Utilisation d'OpenRefine pour le nettoyage des données
Description
OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. Il est similaire dans son apparence à un tableur mais fonctionne en fait comme une base de données. (https://fr.wikipedia.org/wiki/OpenRefine)
Mise en route
Page de téléchargement: https://openrefine.org/download
- Dézipper le dossier et lancer l'exécutable.
- Quand on ouvre OpenRefine, un terminal et une page web de votre navigateur s'ouvrent.
- Pas de crainte, le fichier reste en local.
Ressources utiles
Ecole d'hivers SHS 2023 (1h24) (L'Alliance, Canada)
Description: Tutoriel sous forme de cours donné à des étudiant-e-s. Très bien expliqué depuis la base, en français.
A retenir:
- mise en route
- [14:40] enlever les espaces vides avant et après le texte
- la possibilité de faire des facettes texte
- [27:00] reconnaître des valeurs similaires - corriger les erreurs de saisie
- [41:33] mettre en forme des cellules en enlevant par exemple des [ ou des "
- edit cells >transform > value.replace("[","")
- [27:00] reconnaître des valeurs similaires - corriger les erreurs de saisie
- facette texte avancée pour permettre d'avoir des infos sur chaque item d'une même colonne
- cas: (pomme;banane;poire) dans les cellules -> je veux savoir le nombre de fois où chaque mot apparaît dans le tableau.
- [44:26] Facet > Custom text facet >value.split(";")
- cas: (pomme;banane;poire) dans les cellules -> je veux savoir le nombre de fois où chaque mot apparaît dans le tableau.
- revenir en arrière / reproduire ses actions
- [01:07]pour voir l'historique des actions, revenir en arrière si nécessaire, pouvoir exporter ses actions pour les reproduire sur un autre fichier
- [01:12] exporter ses données, sauvegarder son travail
- [01:07]pour voir l'historique des actions, revenir en arrière si nécessaire, pouvoir exporter ses actions pour les reproduire sur un autre fichier
Vidéo tutoriel Tuto@Mate , 2019(2h05)
Wiki sur Github , mars 2015)
- regrouper les données
- [28:58] option "grouper" pour transformer toutes les manières dont une même donnée apparaît.
- restructurer les données, transposer les colonnes
- [32:23]