Les projets d'ingénierie reposant sur une volumétrie importante de données nécessitent une collaboration maîtrisée entre les différents acteurs impliqués. Cette collaboration est caractérisée par des flux importants d'informations (données, code, documents, etc) produites et échangées par divers outils, logiciels et langages. La maîtrise de la gestion de ces flux, communément désignée par « workflow » est un enjeu essentiel dans la formation des ingénieurs en sciences des données.
La mise en place de tels workflows nécessite une infrastucture matérielle et logicielle qui peut ne pas être facile à déployer dans le cadre de formations académiques. C'est une difficulté à laquelle nous avons été confrontés dans le cadre de nos enseignements au sein du master Statistique et Évaluation pour la Prévision de l'Université de Reims Champagne-Ardenne (URCA). Nous avons pris le parti d'y répondre en privilégiant une approche économique, frugale, accessible et... fun : déployer un ensemble de ressources libres sur un cluster de nano-ordinateurs Raspberry Pi, mises en musique par RStudio Server !
Notre « super-nano-calculateur » meRoo, anagramme de Romeo, nom du super-calculateur de l'URCA, est utilisé pour les enseignements depuis quelques mois. Requêtage de bases SQL, noSQL, développement et hébergements d'applications Shiny, calcul parallèle avec R ou python, calcul distribué avec Hadoop/Spark, intégration continue avec GitLab, les possibilités sont étonnantes. Retours sur cette expérience pédagogique enthousiasmante !