Come convertire HTML in JSON
Sheetize HtmlConverter per .NET semplifica l’analisi di un file HTML e la generazione di una rappresentazione JSON strutturata dei dati tabulari contenuti. Il convertitore gestisce stili inline, immagini incorporate e tabelle complesse, producendo JSON pulito che può essere consumato da API web, pipeline di dati o applicazioni front‑end.
Perché convertire HTML → JSON?
- JSON è indipendente dal linguaggio ed è ideale per trasmettere dati tabulari via HTTP.
- Consente di riutilizzare report basati su HTML come sorgenti dati per dashboard, modelli di machine‑learning o app mobile.
- Mantiene il layout visivo originale dell’HTML esponendo al contempo valori di cella, formule e metadati in forma programmatica.
Set di funzionalità principali
- Estrazione completa delle tabelle – righe, colonne, celle unite e stili vengono catturati.
- Gestione delle risorse – immagini e media vengono codificate in base64 o salvate come file separati, con riferimento nel JSON.
- Output personalizzabile – scegli tra una struttura piatta compatta o un modello gerarchico di cartella di lavoro.
Flusso di conversione (HTML → JSON)
- Creare il convertitore – istanzia
HtmlConverter. - Impostare le opzioni di caricamento – indica il file HTML di origine e, opzionalmente, l’URI base per le risorse collegate.
- Configurare le opzioni di salvataggio – usa
HtmlSaveOptionsper selezionare lo schema JSON, includere le risorse e definire il percorso di output. - Eseguire il processo – chiama
HtmlConverter.Process(loadOptions, saveOptions).
Esempio di codice – HTML a JSON con immagini incorporate
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Come appare il JSON (semplificato)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "..."
}]
}]
}]
}Consigli avanzati
- Estrazione selettiva – imposta
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }per ignorare markup non pertinente. - Prestazioni – per file HTML di grandi dimensioni, abilita
ParallelProcessing = trueinJsonSaveOptions. - Serializzazione personalizzata – implementa
IJsonConverterper trasformare i valori delle celle (ad es. date in formato ISO‑8601).
Supporto esteso ai formati
Oltre a JSON, lo stesso HtmlConverter può generare MHTML, CSV, EPUB, AZW3 e persino tornare a XLSX. Questo lo rende un ponte universale per lo scambio di dati tra ecosistemi web, e‑book e fogli di calcolo.
Seguendo questi passaggi potrai trasformare in modo affidabile qualsiasi report HTML in JSON pulito e facilmente consumabile usando HtmlConverter di Sheetize.