Passer au contenu principal

Utilisation d'OpenRefine pour le nettoyage des données

Description

OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. Il est similaire dans son apparence à un tableur mais fonctionne en fait comme une base de données. (https://fr.wikipedia.org/wiki/OpenRefine)

Mise en route

Page de téléchargement: https://openrefine.org/download

  • Dézipper le dossier et lancer l'exécutable.
  • Quand on ouvre OpenRefine, un terminal et une page web de votre navigateur s'ouvrent.
  • Pas de crainte, le fichier reste en local. 

Ressources utiles

Ecole d'hivers SHS 2023 (1h24) (L'Alliance, Canada)

Description: Tutoriel sous forme de cours donné à des étudiant-e-s. Très bien expliqué depuis la base, en français.

A retenir:

  • mise en route
    • [14:40] enlever les espaces vides avant et après le texte
  • la possibilité de faire des facettes texte
    • [27:00] reconnaître des valeurs similaires - corriger les erreurs de saisie 
    • [41:33] mettre en forme des cellules en enlevant par exemple des [ ou des "
    • edit cells >transform > value.replace("[","")
  • facette texte avancée pour permettre d'avoir des infos sur chaque item d'une même colonne
    • cas: (pomme;banane;poire) dans les cellules -> je veux savoir le nombre de fois où chaque mot apparaît dans le tableau.
      • [44:26] Facet > Custom text facet >value.split(";")
  • revenir en arrière / reproduire ses actions
    • [01:07]pour voir l'historique des actions, revenir en arrière si nécessaire, pouvoir exporter ses actions pour les reproduire sur un autre fichier 
    • [01:12] exporter ses données, sauvegarder son travail

Vidéo tutoriel Tuto@Mate , 2019(2h05)

Wiki sur Github , mars 2015)

  • regrouper les données
    • [28:58] option "grouper" pour transformer toutes les manières dont une même donnée apparaît.
  • restructurer les données, transposer les colonnes
    • [32:23]
  • utilisation des expressions régulières
    • [41:13]
  • réconciliation des données: aller chercher des données dans le domaine public pour enrichir ses données
    • [43:53]