Buenas Prácticas para la gestión y publicación de Datasets


La gestión responsable de datos de investigación es esencial para garantizar su calidad, accesibilidad y reutilización en el futuro. A continuación, presentamos algunas de las mejores prácticas que deben seguirse al depositar y publicar conjuntos de datos en el Repositorio de Datos de la Universidad Distrital.

1. Organización y Documentación de los Datos

Es fundamental mantener los datos bien organizados, utilizando estructuras de carpetas lógicas y nombres de archivos descriptivos. Además, se debe incluir documentación detallada que describa el contenido del conjunto de datos, los métodos utilizados para su recopilación y procesamiento, así como cualquier información contextual relevante. Esto facilita que otros investigadores comprendan y reutilicen los datos de manera eficiente.

2. Uso de Metadatos Estándar

El uso de metadatos estándar es clave para garantizar la interoperabilidad de los datos y su fácil localización. Asegúrese de proporcionar metadatos completos y precisos, describiendo tanto el contenido de los datos como su contexto, autoría, fecha de creación y términos de uso.

3. Cumplimiento con Normativas Éticas y Legales

Asegúrese de que los datos compartidos cumplan con todas las normativas éticas y legales, incluyendo las políticas de protección de datos personales y la confidencialidad de la información sensible. Antes de publicar, verifique que los datos hayan sido anonimizados correctamente y que se cuente con los permisos necesarios para su divulgación.

4. Asignación de Licencias de Uso Claras

Al depositar los datos en el repositorio, es importante asignar una licencia de uso clara, que defina cómo se pueden reutilizar los datos. Licencias como Creative Commons, permiten establecer derechos y restricciones de uso, garantizando que los datos se utilicen de forma ética y respetuosa con el trabajo de los investigadores.

5. Control de Acceso y Protección de Datos Sensibles

Los investigadores deben evaluar cuidadosamente si los datos que publican requieren restricciones de acceso. En casos de datos sensibles o confidenciales, se pueden establecer controles de acceso personalizados que limiten quién puede descargar o ver los datos. Es fundamental cumplir con las políticas de la Universidad y los requisitos legales aplicables en estos casos.

6. Preservación a Largo Plazo

Asegurar la preservación digital de los datos es crucial para garantizar su disponibilidad futura. Se recomienda utilizar formatos de archivo abiertos y no propietarios, como CSV o TXT, para evitar problemas de compatibilidad a largo plazo. Además, es aconsejable revisar periódicamente los datos almacenados para garantizar su integridad.

El Repositorio de datos. admite una amplia variedad de formatos de archivo para gestionar distintos tipos de datos. Estos son algunos de los formatos más comunes que soporta la plataforma:

v Bases de datos: XML, CSV, JSON

v Datos Geoespaciales: SHP, DBF, GeoTIFF, netCDF, GeoJSON, Rinex

v CAD: .dxf, .sat, .igs, .stp  

v Nube de Puntos (PointCloud): LAS, LAZ, XYZ, PTX

v Videos: MPEG, AVI, MXF, MKV

v Audio: WAVE, AIFF, MP3, MXF

v Estadísticas: ASCII, DTA, POR, SAS, SAV

v Imagenes: TIFF, JPEG 2000, PDF, PNG, GIF, BMP, SVG

v Datos tabulares: CSV, TXT

v Texto: XML, PDF/A, HTML, ASCII, UTF-8 

v Sismología: SEED 

v Código: (tcl files, py files) Jupyter Notebook

v Archivo web: WARC

v Contenedores: TAR, GZIP, ZIP

7. Citación de Datos

Promueva la citación de datos depositados mediante la inclusión de identificadores persistentes (DOI). Proporcione instrucciones claras sobre cómo citar los datos de investigación, lo que permitirá que su trabajo sea reconocido y reutilizado correctamente por otros investigadores.

8. Actualización y Mantenimiento de los Datos

Los conjuntos de datos no deben considerarse como recursos estáticos. Cuando se realicen actualizaciones o correcciones, es importante mantener versiones claras de los datos, asegurándose de que todas las modificaciones estén documentadas. Esto garantiza la transparencia y confiabilidad de los datos a lo largo del tiempo.