Come convertire HTML in JSON

Sheetize HtmlConverter per .NET semplifica l’analisi di un file HTML e la generazione di una rappresentazione JSON strutturata dei dati tabulari contenuti. Il convertitore gestisce stili inline, immagini incorporate e tabelle complesse, producendo JSON pulito che può essere consumato da API web, pipeline di dati o applicazioni front‑end.

Perché convertire HTML → JSON?

  • JSON è indipendente dal linguaggio ed è ideale per trasmettere dati tabulari via HTTP.
  • Consente di riutilizzare report basati su HTML come sorgenti dati per dashboard, modelli di machine‑learning o app mobile.
  • Mantiene il layout visivo originale dell’HTML esponendo al contempo valori di cella, formule e metadati in forma programmatica.

Set di funzionalità principali

  • Estrazione completa delle tabelle – righe, colonne, celle unite e stili vengono catturati.
  • Gestione delle risorse – immagini e media vengono codificate in base64 o salvate come file separati, con riferimento nel JSON.
  • Output personalizzabile – scegli tra una struttura piatta compatta o un modello gerarchico di cartella di lavoro.

Flusso di conversione (HTML → JSON)

  1. Creare il convertitore – istanzia HtmlConverter.
  2. Impostare le opzioni di caricamento – indica il file HTML di origine e, opzionalmente, l’URI base per le risorse collegate.
  3. Configurare le opzioni di salvataggio – usa HtmlSaveOptions per selezionare lo schema JSON, includere le risorse e definire il percorso di output.
  4. Eseguire il processo – chiama HtmlConverter.Process(loadOptions, saveOptions).

Esempio di codice – HTML a JSON con immagini incorporate

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Come appare il JSON (semplificato)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Consigli avanzati

  • Estrazione selettiva – imposta HtmlLoadOptions.IncludeElements = new[] { "table", "img" } per ignorare markup non pertinente.
  • Prestazioni – per file HTML di grandi dimensioni, abilita ParallelProcessing = true in JsonSaveOptions.
  • Serializzazione personalizzata – implementa IJsonConverter per trasformare i valori delle celle (ad es. date in formato ISO‑8601).

Supporto esteso ai formati

Oltre a JSON, lo stesso HtmlConverter può generare MHTML, CSV, EPUB, AZW3 e persino tornare a XLSX. Questo lo rende un ponte universale per lo scambio di dati tra ecosistemi web, e‑book e fogli di calcolo.

Seguendo questi passaggi potrai trasformare in modo affidabile qualsiasi report HTML in JSON pulito e facilmente consumabile usando HtmlConverter di Sheetize.

 Italiano