5 de marzo de 2026

Construyendo un servidor MCP para investigar la educación de las mujeres en México

Un proyecto de análisis de datos con inteligencia artificial, estadísticas del INEGI y perspectiva de género.

Raúl Pimentel
Raúl Pimentel
[email protected]
Construyendo un servidor MCP para investigar la educación de las mujeres en México

Introducción

El Model Context Protocol (MCP) es un estándar abierto desarrollado por Anthropic que permite conectar modelos de lenguaje de gran escala (LLM) con fuentes de datos externas, herramientas y servicios de forma estructurada y estandarizada. En lugar de depender únicamente del conocimiento interno del modelo, MCP permite que el asistente consulte datos reales, actualizados y verificables en tiempo de ejecución.

Este proyecto nació con una pregunta concreta: ¿es posible construir un servidor MCP orientado a la investigación social, que ponga a disposición de un modelo de IA estadísticas oficiales sobre la situación de las mujeres en México?

La respuesta es sí, y este post documenta cómo se hizo.


Objetivo del proyecto

El servidor MCPInegiMujeres tiene como propósito central democratizar el acceso a estadísticas de género mediante inteligencia artificial. Específicamente:

  • Exponer datos educativos oficiales del Sistema Integrado de Estadísticas sobre Violencia Contra las Mujeres (SIESVIM) del INEGI como recursos consultables por un LLM.
  • Proveer herramientas que permitan al modelo conocer la fuente, fecha de actualización y contexto de los datos.
  • Ofrecer prompts especializados que guíen al modelo hacia análisis con perspectiva de género.
  • Demostrar que MCP puede ser una infraestructura válida para la investigación social basada en datos.

La fuente principal de datos es el SIESVIM (https://sc.inegi.org.mx/SIESVIM1/), un sistema que integra estadísticas de diversas instituciones —INEGI, SEP, CONAPO— para caracterizar la violencia contra las mujeres y el contexto económico, demográfico y sociocultural en el que viven.


Arquitectura del servidor

El servidor está construido con TypeScript sobre Node.js, utilizando el SDK oficial de MCP (@modelcontextprotocol/sdk). Expone tres tipos de capacidades:

Resources (Recursos)

Son los conjuntos de datos en formato CSV que el modelo puede leer directamente. Cada recurso corresponde a un indicador educativo extraído del SIESVIM:

RecursoFuenteDescripción
tasa-absorcion-nivel-educativoSEP / Formato 911Tasa de absorción por nivel educativo, 2012–2025
tasa-abandono-nivel-educativoSEP / Formato 911Tasa de abandono escolar por nivel, 2012–2024
eficiencia-terminal-nivel-educativoSEP / Formato 911Eficiencia terminal por nivel, 2012–2024
tasa-reprobacion-nivel-educativoSEP / Formato 911Tasa de reprobación por nivel, 2012–2024
tasa-cobertura-nivel-educativoCONAPOTasa de cobertura con proyecciones hasta 2070
porcentaje-poblacion-nivel-escolaridadINEGI / CensosDistribución por nivel de escolaridad, 1990–2020
porcentaje-poblacion-condicion-leer-escribirINEGI / CensosAlfabetización por género, 1990–2020
porcentaje-poblacion-asistencia-escolarINEGI / CensosAsistencia escolar por género, 1990–2020
años-promedio-escolaridad-15-masINEGI / CensosAños promedio de escolaridad, 1990–2020

Todos los datos están desagregados por sexo (mujeres y hombres), lo que permite análisis comparativos de brecha de género.

Tools (Herramientas)

Las herramientas permiten que el modelo ejecute acciones o consulte metadatos estructurados:

  • fuente-indicadores-educacion: Devuelve el nombre oficial del sistema de datos, la URL de consulta, los indicadores disponibles, la fecha de actualización (23 de enero de 2026) y la descripción completa del SIESVIM. Garantiza que el modelo siempre pueda citar correctamente su fuente.

Prompts

Los prompts son plantillas de análisis predefinidas que combinan múltiples recursos con instrucciones específicas para guiar al modelo hacia un análisis profundo con perspectiva de género. Algunos ejemplos:

  • brecha-genero-absorcion-educativa: Analiza en qué niveles las mujeres superan o están por debajo de los hombres en absorción escolar.
  • impacto-pandemia-educacion-mujeres: Evalúa el efecto de COVID-19 en los indicadores educativos femeninos.
  • evolucion-historica-escolaridad-femenina: Cruza años promedio de escolaridad, asistencia y nivel alcanzado entre 1990 y 2020.
  • abandono-escolar-femenino-causas-tendencias: Relaciona reprobación y abandono escolar para identificar patrones de riesgo.
  • eficiencia-terminal-trayectoria-educativa-mujeres: Reconstruye la trayectoria escolar completa de las mujeres nivel por nivel.

Pasos para desarrollar el servidor

1. Definir el dominio de datos

Antes de escribir una línea de código, se identificó la fuente: el SIESVIM del INEGI. Se seleccionaron los indicadores educativos por su relevancia para caracterizar la situación de las mujeres y la disponibilidad de desagregación por sexo.

2. Preparar los datos

Los indicadores se descargaron del portal SIESVIM y se estructuraron como archivos CSV normalizados en src/resources/. Cada archivo incluye columnas para el total nacional, mujeres y hombres, lo que facilita el análisis comparativo.

3. Inicializar el servidor MCP

import { McpServer } from "@modelcontextprotocol/sdk/server/mcp.js";

const mcpServer = new McpServer({
  name: "mcpinegimujeres",
  version: "1.0.0",
});

4. Registrar los recursos

Cada CSV se expone como un recurso con su URI, tipo MIME y descripción. El modelo puede solicitar cualquiera de ellos durante una conversación:

mcpServer.resource(
  "eficiencia-terminal-nivel-educativo",
  "sep://eficiencia-terminal-nivel-educativo",
  {
    description: "EFICIENCIA TERMINAL POR NIVEL EDUCATIVO. SEP. Formato 911.",
    mimeType: "text/csv",
  },
  async () => { /* leer y retornar el CSV */ }
);

5. Crear la herramienta de fuente

Para garantizar la trazabilidad de los datos, se creó el tool fuente-indicadores-educacion, que devuelve el nombre, URL, indicadores y descripción del SIESVIM en formato JSON estructurado.

6. Diseñar los prompts de análisis

Se escribieron siete prompts que combinan recursos relacionados y formulan preguntas de investigación concretas con perspectiva de género. Este es el componente más importante del servidor: convierte datos en preguntas de política pública.

7. Levantar el servidor HTTP

El servidor utiliza WebStandardStreamableHTTPServerTransport para exponer el protocolo MCP sobre HTTP estándar, lo que permite su integración con clientes como Claude Desktop o cualquier cliente MCP compatible:

httpServer.listen(3000, () => {
  console.log(`MCP server running on http://localhost:3000/mcp`);
});

Hallazgos destacados

Al consultar el servidor con un modelo de lenguaje, emergen patrones relevantes que los datos confirman:

  • Las mujeres superan a los hombres en eficiencia terminal en todos los niveles educativos. La brecha más amplia se da en educación superior: 72% mujeres vs 60.1% hombres en 2023-2024.
  • Media superior es el nivel con mayor avance femenino: la eficiencia terminal de las mujeres creció 11.6 puntos porcentuales entre 2012 y 2024.
  • La pandemia de COVID-19 impactó negativamente la educación superior femenina, y la recuperación no ha alcanzado los niveles pre-pandemia.
  • La brecha de alfabetización entre mujeres y hombres se ha reducido significativamente entre 1990 y 2020, aunque persiste en grupos de mayor edad.

Conclusión

Este proyecto demuestra que el Model Context Protocol no es exclusivo del ámbito tecnológico o empresarial. Puede ser una herramienta poderosa para la investigación social, la política pública y el periodismo de datos.

Al conectar un LLM con estadísticas oficiales desagregadas por género, es posible obtener análisis contextualizados, reproducibles y citables en segundos. El modelo no inventa los datos: los lee, los cruza y los interpreta con las instrucciones que el servidor le provee.

La combinación de datos del INEGI + MCP + modelos de lenguaje abre una vía para que investigadores, estudiantes, periodistas y tomadores de decisiones accedan a inteligencia analítica sin necesidad de ser especialistas en estadística o programación.


Una reflexión para el 8 de marzo

El Día Internacional de la Mujer no es solo una fecha de conmemoración: es un recordatorio de que los datos también son una forma de visibilizar o invisibilizar realidades.

Los números de este estudio cuentan una historia de avance y de resistencia. Las mujeres mexicanas terminan la primaria casi a la par que los hombres. Superan a los hombres en secundaria, media superior y superior. Y sin embargo, el sistema educativo sigue perdiendo alumnas en los niveles más altos, justo donde las decisiones de vida —maternidad temprana, trabajo no remunerado, violencia— pesan con más fuerza.

Construir herramientas que hagan visibles esas brechas es también un acto político. Si la inteligencia artificial va a tener un lugar en la investigación social, ese lugar debe estar orientado por la equidad: datos abiertos, preguntas con perspectiva de género, y análisis que sirvan para transformar, no solo para describir.

Este servidor MCP es un pequeño paso en esa dirección. Descarga el código fuente del proyecto desde el repositorio https://github.com/rulopimentel/MCPInegiMujeres


Datos: INEGI — Sistema Integrado de Estadísticas sobre Violencia Contra las Mujeres (SIESVIM). SEP — Formato 911. CONAPO — Proyecciones de Población. Última actualización de indicadores: 23 de enero de 2026.