Com convertir HTML a JSON

Sheetize HtmlConverter per a .NET facilita l’anàlisi d’un fitxer HTML i la generació d’una representació JSON estructurada de les dades de full de càlcul que conté. El convertidor gestiona estils en línia, imatges incrustades i taules complexes, produint JSON net que pot ser consumit per APIs web, canals de dades o aplicacions front‑end.

Per què convertir HTML → JSON?

  • JSON és independent del llenguatge i és perfecte per transmetre dades tabulars per HTTP.
  • Et permet reutilitzar informes basats en HTML com a fonts de dades per a quadres de comandament, models d’aprenentatge automàtic o aplicacions mòbils.
  • Conserva el disseny visual original a l’HTML mentre exposa els valors de les cel·les, fórmules i metadades en una forma programàtica.

Conjunt de funcions principals

  • Extracció completa de taules – es capturen files, columnes, cel·les fusionades i estils.
  • Gestió d’actius – les imatges i els mitjans es poden codificar en base64 o desar com a fitxers separats referenciats al JSON.
  • Sortida personalitzable – tria entre una estructura plana compacta o un model jeràrquic de llibre de treball.

Flux de treball de conversió (HTML → JSON)

  1. Crea el convertidor – instancia HtmlConverter.
  2. Defineix les opcions de càrrega – indica el fitxer HTML d’origen i, opcionalment, defineix la URI base per als recursos vinculats.
  3. Configura les opcions de guardat – utilitza HtmlSaveOptions per seleccionar l’esquema JSON, incrustar recursos i establir el camí de sortida.
  4. Executa el procés – crida HtmlConverter.Process(loadOptions, saveOptions).

Exemple de codi – HTML a JSON amb imatges incrustades

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Aspecte del JSON (simplificat)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "data:image/png;base64,iVBORw0KG..."
      }]
    }]
  }]
}

Consells avançats

  • Extracció selectiva – estableix HtmlLoadOptions.IncludeElements = new[] { "table", "img" } per ignorar el marcatge que no interessa.
  • Rendiment – per a fitxers HTML grans, activa ParallelProcessing = true a JsonSaveOptions.
  • Serialització personalitzada – implementa IJsonConverter per transformar els valors de les cel·les (p. ex., dates a ISO‑8601).

Suport ampli de formats

A més del JSON, el mateix HtmlConverter pot generar MHTML, CSV, EPUB, AZW3 i fins i tot tornar a XLSX. Això el converteix en un pont universal per a l’intercanvi de dades entre ecosistemes web, d’e‑books i de fulls de càlcul.

Amb aquests passos podràs convertir de manera fiable qualsevol informe HTML en JSON net i consumible mitjançant HtmlConverter de Sheetize.

 Català