¿QUÉ SON LOS DATOS?

Enlaces de interés sobre datos

¿Qué son los datos?

Los datos son representaciones simbólicas (números, letras, hechos, observaciones) de atributos o variables, cuantitativas o cualitativas, que describen hechos, pero carecen de significado por sí mismos hasta ser procesados. Actúan como la materia prima para generar información, la cual se obtiene al estructurarlos, organizarlos y contextualizarlos para la toma de decisiones.

¿Qué son los datos? — concepto amplio y ecosistema

Descripción técnica y práctica sobre qué son los datos, sus tipos, procesos asociados y cómo se convierten en conocimiento útil.

1. Definición amplia

Un dato es una unidad mínima de información: un valor (numérico, textual, binario) que representa una observación o una afirmación sobre el mundo real. Los datos, aislados, tienen poco valor; su valor crece al integrarse, estructurarse y contextualizarse.

2. Tipos de datos (por estructura)

Datos estructurados: tablas relacionales, CSV, columnas con esquema definido.
Datos semi-estructurados: JSON, XML, Avro — esquemas flexibles y jerárquicos.
Datos no estructurados: texto libre, imágenes, audio, vídeo, documentos escaneados.

3. Tipos de datos (por origen y naturaleza)

Transaccionales: registros de operaciones (ventas, logs de sistemas).
Observacionales / sensoriales: telemetría, IoT, series temporales.
Maestro / referencial: catálogos, diccionarios, tablas de referencia.
Generados por usuarios: textos, reseñas, contenidos multimedia.
Derivados: features, agregados y resultados de modelos.

4. Características clave (4/5 V)

Volumen: cantidad de datos (GB, TB, PB).
Velocidad: tasa de generación/ingestión (streaming vs batch).
Variedad: tipos y formatos diversos.
Veracidad: calidad y fiabilidad (ruido, sesgos).
Valor: utilidad económica o estratégica tras procesarlos.

5. De datos a conocimiento (piramide DIKW)

Datos → Información → Conocimiento → Sabiduría:

Datos: valores sin contexto.
Información: datos contextualizados y agregados (p. ej. una tabla ordenada por fecha).
Conocimiento: patrones, modelos y reglas inferidas (ML, reglas de negocio).
Sabiduría: decisiones estratégicas basadas en criterio, ética y experiencia.

6. Metadatos, ontologías y semántica

Los metadatos describen datos: esquema, origen, fecha, propietario, calidad. Las ontologías y vocabularios (Dublin Core, schema.org, RDF) permiten interoperabilidad semántica y enlazan datos en grafos de conocimiento.

7. Tipos de proceso sobre datos

Operaciones que convierten datos crudos en productos útiles:

Captura / Ingesta: batch (ficheros) o stream (events, pub/sub).
Validación y calidad: schema checks, deduplicado, imputación de nulos.
Transformación: normalización, join, agregación, enriquecimiento (lookup).
Almacenamiento: OLTP (bases relacionales), data lake (objetos), data warehouse (columnar).
Indexado / búsqueda: motores de búsqueda, índices invertidos.
Modelado y análisis: estadísticas, ML, simulación.
Publicación / serving: APIs, dashboards, data products.
Retención y eliminación: políticas de lifecycle y borrado seguro.

8. Productos de datos y APIs

Un producto de datos es una entrega localizable y reutilizable (dataset, API, dashboard) con SLAs, documentación y ownership. Ejemplos: pipelines ETL, endpoints de features, cubos OLAP, informes periódicos.

9. Almacenamiento y arquitecturas

Modelos habituales:

Data Lake: S3/Blob con raw + curated zones (parquet, parquet partitioning).
Data Warehouse: columnar para consultas analíticas (Redshift, Snowflake).
Lakehouse: unifica lake + warehouse (Delta Lake, Iceberg).
Catalog & Lineage: data catalog (Amundsen/Atlas), registro de transformaciones y progenie de datos.

10. Calidad de datos y mediciones

Métricas y controles comunes:

Completitud: porcentaje de valores no nulos.
Exactitud: concordancia con fuentes fiables.
Consistencia: reglas y constraints (p. ej. rango, formato).
Unicidad: duplicados detectados por claves naturales.
Temporalidad: frescura y latencia.

Herramientas: Great Expectations, Deequ, dbt tests.

11. Gobernanza, ética y protección

La gobernanza define políticas: propiedad (data owners), acceso, clasificación, retención, y cumplimiento (GDPR, privacidad). Aspectos éticos: evitar sesgos, uso responsable y transparencia en modelos.

12. Monetización y valor

Formas de extraer valor: reducción de costes operativos, mejora de procesos, productos basados en datos (pricing dinámico, recomendaciones), venta/licenciamiento de datasets y análisis predictivo como servicio.

Comparativa de tipos de datos

Tipo	Ejemplo	Uso típico
Transaccional	Ventas, órdenes	OLTP, contabilidad
Observacional	Telemetría IoT	Monitoreo, mantenimiento predictivo
Maestro	Catálogos, clientes	Referencia única, integridad
No estructurado	Emails, imágenes	Mining, NLP, visión
Derivado	Features ML, agregados	Modelado y decisiones

¿Qué puedo hacer con los datos?

Proceso	Uso
Análisis de datos	Inspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir información útil y extraer conclusiones
Bases de datos	Guardar, consultar y actualizar información de forma eficiente
Proceso de datos	Operaciones que transforman datos desde su captura hasta su uso final
Protección de datos	Asegurar confidencialidad, integridad y disponibilidad de la información
Recuperación de datos	Acceder, extraer y reconstruir la información que permanece en soportes de almacenamiento que ya no son accesibles

Snippets / comandos útiles

Comprobar tipo de archivo (Linux)

file datos.csv
jq . item.json | head

Contar filas CSV (csvkit)

csvstat --count datos.csv
csvlook datos.csv | wc -l

Checklist operativo (prioritario)

Clasificar datasets y asignar propietarios (data owners).
Implementar catálogo con metadatos y lineage.
Establecer SLAs de frescura y calidad por dataset.
Versionar esquemas y transformations (git + dbt).
Políticas de acceso (RBAC / ABAC) y cifrado en tránsito/reposo.
Monitorizar calidad y alertar por drift o degradación.