Cómo convertir HTML a JSON
Sheetize HtmlConverter para .NET facilita el análisis de un archivo HTML y la generación de una representación JSON estructurada de los datos de la hoja de cálculo que contiene. El conversor maneja estilos en línea, imágenes incrustadas y tablas complejas, produciendo JSON limpio que puede ser consumido por APIs web, pipelines de datos o aplicaciones front‑end.
¿Por qué convertir HTML → JSON?
- JSON es independiente del lenguaje y perfecto para transmitir datos tabulares mediante HTTP.
- Permite reutilizar informes basados en HTML como fuentes de datos para dashboards, modelos de aprendizaje automático o aplicaciones móviles.
- Conserva el diseño visual original en el HTML mientras expone los valores de celda, fórmulas y metadatos subyacentes de forma programática.
Conjunto de características principales
- Extracción completa de tablas – se capturan filas, columnas, celdas combinadas y estilos.
- Gestión de recursos – imágenes y medios se codifican en base64 o se guardan como archivos separados referenciados en el JSON.
- Salida personalizable – elige entre una estructura plana compacta o un modelo jerárquico de libro de trabajo.
Flujo de conversión (HTML → JSON)
- Crear el conversor – instancia
HtmlConverter. - Definir opciones de carga – indica el archivo HTML origen y, opcionalmente, la URI base para los recursos enlazados.
- Configurar opciones de guardado – usa
HtmlSaveOptionspara seleccionar el esquema JSON, incrustar recursos y establecer la ruta de salida. - Ejecutar el proceso – llama a
HtmlConverter.Process(loadOptions, saveOptions).
Ejemplo de código – HTML a JSON con imágenes incrustadas
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Cómo luce el JSON (simplificado)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "..."
}]
}]
}]
}Consejos avanzados
- Extracción selectiva – establece
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }para ignorar marcado no relacionado. - Rendimiento – para archivos HTML grandes, habilita
ParallelProcessing = trueenJsonSaveOptions. - Serialización personalizada – implementa
IJsonConverterpara transformar valores de celda (p.ej., fechas a ISO‑8601).
Soporte ampliado de formatos
Además de JSON, el mismo HtmlConverter puede generar MHTML, CSV, EPUB, AZW3 e incluso volver a XLSX. Esto lo convierte en un puente universal para el intercambio de datos entre ecosistemas web, de libros electrónicos y de hojas de cálculo.
Con estos pasos podrás convertir de forma fiable cualquier informe HTML en JSON limpio y consumible usando HtmlConverter de Sheetize.