Cómo convertir HTML a JSON

Sheetize HtmlConverter para .NET facilita el análisis de un archivo HTML y la generación de una representación JSON estructurada de los datos de la hoja de cálculo que contiene. El conversor maneja estilos en línea, imágenes incrustadas y tablas complejas, produciendo JSON limpio que puede ser consumido por APIs web, pipelines de datos o aplicaciones front‑end.

¿Por qué convertir HTML → JSON?

  • JSON es independiente del lenguaje y perfecto para transmitir datos tabulares mediante HTTP.
  • Permite reutilizar informes basados en HTML como fuentes de datos para dashboards, modelos de aprendizaje automático o aplicaciones móviles.
  • Conserva el diseño visual original en el HTML mientras expone los valores de celda, fórmulas y metadatos subyacentes de forma programática.

Conjunto de características principales

  • Extracción completa de tablas – se capturan filas, columnas, celdas combinadas y estilos.
  • Gestión de recursos – imágenes y medios se codifican en base64 o se guardan como archivos separados referenciados en el JSON.
  • Salida personalizable – elige entre una estructura plana compacta o un modelo jerárquico de libro de trabajo.

Flujo de conversión (HTML → JSON)

  1. Crear el conversor – instancia HtmlConverter.
  2. Definir opciones de carga – indica el archivo HTML origen y, opcionalmente, la URI base para los recursos enlazados.
  3. Configurar opciones de guardado – usa HtmlSaveOptions para seleccionar el esquema JSON, incrustar recursos y establecer la ruta de salida.
  4. Ejecutar el proceso – llama a HtmlConverter.Process(loadOptions, saveOptions).

Ejemplo de código – HTML a JSON con imágenes incrustadas

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Cómo luce el JSON (simplificado)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "data:image/png;base64,iVBORw0KG..."
      }]
    }]
  }]
}

Consejos avanzados

  • Extracción selectiva – establece HtmlLoadOptions.IncludeElements = new[] { "table", "img" } para ignorar marcado no relacionado.
  • Rendimiento – para archivos HTML grandes, habilita ParallelProcessing = true en JsonSaveOptions.
  • Serialización personalizada – implementa IJsonConverter para transformar valores de celda (p.ej., fechas a ISO‑8601).

Soporte ampliado de formatos

Además de JSON, el mismo HtmlConverter puede generar MHTML, CSV, EPUB, AZW3 e incluso volver a XLSX. Esto lo convierte en un puente universal para el intercambio de datos entre ecosistemas web, de libros electrónicos y de hojas de cálculo.

Con estos pasos podrás convertir de forma fiable cualquier informe HTML en JSON limpio y consumible usando HtmlConverter de Sheetize.

 Español