BaseDatosEmpresas — etiqueta de lote, lonja de datos B2BBaseDatosEmpresas
Metodología

Cómo construimos
la base de datos.

Una base de datos de empresas española puede valer mucho o prácticamente nada dependiendo de cómo se construyó. Listas raspadas de directorios web, datos sin validar de dígito de control, contactos de personas físicas sin consentimiento o información con cinco años de antigüedad son problemas habituales en el mercado. En este artículo explicamos el proceso que usamos en BaseDatosEmpresas para construir lotes de calidad A++ verificada.

El pipeline de construcción: 6 fases

01

Extracción del BORME

El Boletín Oficial del Registro Mercantil publica diariamente los actos inscribibles de las sociedades mercantiles españolas. Cada entrada incluye NIF, razón social, tipo de acto (constitución, modificación, disolución) y provincia. Es la fuente primaria de identidad jurídica de cada empresa.

02

Normalización de razón social y dirección

Las razones sociales en el BORME presentan variaciones tipográficas, abreviaciones no estándar (SL, S.L., S.L., Sociedad Limitada…) y mayúsculas inconsistentes. La normalización aplica reglas de tokenización para extraer la forma canónica y separar la dirección fiscal (calle, número, CP, municipio, provincia).

03

Validación del dígito de control del CIF

Cada CIF/NIF se valida matemáticamente con el algoritmo de Luhn modificado (Orden EHA/451/2008). Solo los que pasan la validación entran en la base de datos. Esto elimina errores tipográficos y CIFs ficticios de bases de datos de mala calidad.

04

Enriquecimiento con fuentes secundarias

Para añadir datos de contacto (teléfono, email, web) se cruzan otras fuentes públicas: directorios de empresas publicados por las propias sociedades, páginas web institucionales, registros de licitaciones y subvenciones públicas (datos publicados por las administraciones). No se usan fuentes privadas ni datos raspados de redes sociales.

05

Clasificación por CNAE y tamaño

Cada empresa se etiqueta con su código CNAE de 4 dígitos según la inscripción en el Registro Mercantil. La estimación de tamaño (número de empleados) se infiere cuando está disponible en fuentes de licitaciones o en la inscripción registral.

06

Puntuación de calidad (tier A++, A+, B)

Cada registro recibe una puntuación de calidad según los campos disponibles y verificados: A++ = CIF + dirección + al menos un dato de contacto verificado (80.591 registros). A+ = CIF + dirección completa (95.689 registros contactables). B = datos parciales o dirección sin validar.

Base legal: RGPD art. 14 e interés legítimo

Todas las fuentes utilizadas son de carácter público. El BORME es un registro oficial de publicación obligatoria para las empresas inscritas en el Registro Mercantil. Los datos de contacto adicionales proceden de información publicada voluntariamente por las propias empresas en fuentes públicas.

La base legal para el tratamiento y cesión de datos de personas jurídicas es el interés legítimo del cedente y del receptor (artículo 6.1.f del RGPD), que permite el tratamiento cuando existe un equilibrio de intereses razonable. Para personas físicas autónomas, se aplica la excepción del art. 14.5.b del RGPD para datos de actividad profesional obtenidos de fuentes de acceso público.

Esto implica que:

  • Cada comprador de un lote asume la responsabilidad de uso conforme a su propia política RGPD.
  • Los lotes incluyen solo datos de actividad empresarial (no datos personales sensibles).
  • Cualquier empresa puede ejercer su derecho de exclusión en baja-datos.

Qué NO incluimos (y por qué importa)

  • Datos de particulares: ningún dato de personas físicas no vinculadas a una actividad empresarial registrada.
  • Empresas disueltas o en liquidación: filtramos los anuncios de disolución del BORME. Un CIF puede ser matemáticamente válido y corresponder a una sociedad que ya no existe.
  • Emails de servidores catch-all no verificados: los emails se verifican con MX lookup y comprobación de dominio activo antes de incluirlos.
  • Datos con más de 18 meses de antigüedad sin revalidar: la base se actualiza periódicamente con nuevas inscripciones en el BORME y se eliminan las empresas que han publicado acto de disolución.

— datos construidos con este proceso

80.591 A++ · 95.689 contactables · CIF validado.

Lotes en CSV listos para importar en tu CRM. Por sector, por provincia o a la carta. Sin suscripción, pago único desde 19 €.

— sigue leyendo