Rencontres R 2023 - Sciencesconf.org

FR EN

sciencesconf.org:rr2023:460150

Les données du web sémantique sont formalisées selon un modèle en graphe de triplets RDF. Elles nécessitent, pour être collectées depuis les endpoints dédiés (e.g. Wikidata, dbpedia, HAL, etc.) l'élaboration de requêtes dans un langage dédié: SPARQL. Ce langage, qui est aux données du web sémantique ce que SQL est aux bases de données relationnelles, a ainsi un objectif très spécifique et demeure assez méconnu des utilisateur·rice·s de données. Au contraire, R est un langage de programmation assez généraliste puisqu'il permet de gérer de nombreux aspects de la chaîne de traitements de données, depuis leur recueil jusqu'à leur valorisation (par des modèles, graphiques, cartes, rapports, applications, etc.).

Le package glitter permet aux utilisateur·rice·s de R sans connaissance préalable de SPARQL d'explorer et collecter les données du web sémantique. Par des commandes R inspirées du tidyverse et ainsi selon un langage spécifiques à un domaine (DSL), l'utilisateur peut générer des requêtes SPARQL, les envoyer aux points d'accès de son choix, et recueillir les données tabulaires correspondantes. Ces étapes sont ainsi intégrées à l'environnement R dans lequel l'utilisateur·rice peut également réaliser les étapes d'analyse et de valorisation des données, dans une chaîne de traitement reproductible.
Lors de cette présentation, nous montrerons les principales fonctionnalités du package glitter* à partir d'exemples. Le package est toujours en développement mais il est fonctionnel, documenté et peut être installé par les participant·e·s qui souhaitent le tester en suivant les instructions décrites sur [cette page](https://lvaudor.github.io/glitter/).

Type :	:	Présentation longue
Langue du texte intégral	:	français
Thématiques	:	Shiny/plumber I
Mots-Clés	:	Web sémantique ; Linked Open Data ; RDF ; SPARQL ; Wikidata ; tidyverse ; Package

Vie privée | Accessibilité