LatinR 2025

Simplifying Research Data Sharing with R

Global Health Engineering, ETH Zurich

December 4, 2025

Contexto

  • Colaboración desde la academia con investigadores WASH (water, sanitation and hygiene) en países con recursos limitados
  • Conjuntos de datos valiosos son desaprovechados al no ser publicados
  • Familiaridad limitada con los principios FAIR de datos (Wilkinson et al. 2016)
    • Localizables (Findable)
    • Accesibles (Accessible)
    • Interoperables (Interoperable)
    • Reutilizables (Reusable)
  • El trabajo requerido para generar y recolectar datos no recibe el reconocimiento que merece

Prácticas Actuales de Almacenamiento de Datos

Niveles de Experiencia en Programación

Retos y Soluciones

Retos

  • Falta de conocimiento de herramientas accesibles
  • Curva de aprendizaje pronunciada
  • Flujos de trabajo no estandarizados
  • Reconocimiento solo a quienes publican un artículo académico

Soluciones propuestas

  • Minimizar requisitos técnicos
  • Interfaces amigables para el usuario
  • Guía detallada para publicación de datos
  • Énfasis en atribución apropiada

Nuestro Recorrido: washr

  • Primera iteración: paquete washr (Zhong et al. 2024)
  • Flujo de trabajo simplificado de datos → publicación
  • Basado en utilidades de devtools
  • Guía completa de publicación (Walder et al. 2025)

Pero podíamos hacerlo mejor…

Presentando fairenough

github.com/openwashdata/fairenough

Un paquete de R para publicación de datos siguiendo los principios FAIR

  • Mínima entrada del usuario requerida
  • Documentación generada por LLMs (opcional)
  • Un solo comando para obtener el paquete terminado desde datos ordenados (tidy)

Veamos fairenough en acción!

fairenough: Control Granular

  1. setup() - Inicializa estructura de paquete R con usethis

  2. process() - Lectura y validación automática de datos (auto_clean = TRUE)

  3. collect() - Recolección interactiva de metadatos con cli

  4. generate() - Diccionarios de datos generados con LLMs vía ellmer

  5. build() - Infraestructura completa de paquete con Roxygen, archivos de información de citación (CFF) y sitio web

Principios FAIR

  • Localizables: Generación integral de metadatos
  • Accesibles: Paquete R + sitio web + múltiples formatos (CSV, XLS)
  • Interoperables: Formatos legibles por máquina
  • Reutilizables: Licenciamiento y atribución claros

Además: Facilita la asignación de DOI a través de integración de GitHub con Zenodo

Gracias!

Autores

Adriana Clavijo Daza, Lars Schöbitz, Prof. Dr. Elizabeth Tilley, Colin Walder, Nicolo Massari

Global Health Engineering (GHE), ETH Zurich

Yash Dubey, Mian Zhong

ETH Zurich

Referencias

Walder, Colin, Lars Schöbitz, and Yash Dubey. 2025. ghedatapublishing. V. 1.0.0. Released August. https://doi.org/10.5281/zenodo.1234.
Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg, et al. 2016. “The FAIR Guiding Principles for Scientific Data Management and Stewardship.” Scientific Data 3 (1): 160018. https://doi.org/10.1038/sdata.2016.18.
Zhong, Mian, Margaux Götschmann, Colin Walder, and Lars Schöbitz. 2024. Washr: Publication Toolkit for Water, Sanitation and Hygiene (WASH) Data. https://doi.org/10.32614/CRAN.package.washr.