Hoe HTML naar JSON converteren
Sheetize HtmlConverter voor .NET maakt het eenvoudig om een HTML‑bestand te parseren en een gestructureerde JSON‑representatie van de spreadsheet‑gegevens die het bevat te genereren. De converter verwerkt inline stijlen, ingebedde afbeeldingen en complexe tabellen, en levert schone JSON die kan worden gebruikt door web‑API’s, datapijplijnen of front‑end applicaties.
Waarom HTML → JSON converteren?
- JSON is taal‑onafhankelijk en perfect voor het transporteren van tabelgegevens via HTTP.
- Hierdoor kun je HTML‑gebaseerde rapporten hergebruiken als databron voor dashboards, machine‑learning‑modellen of mobiele apps.
- De oorspronkelijke visuele lay‑out in de HTML blijft behouden, terwijl de onderliggende celwaarden, formules en metadata beschikbaar worden in een programmeerbare vorm.
Kernfunctionaliteit
- Volledige tabel‑extractie – rijen, kolommen, samengevoegde cellen en stijlen worden vastgelegd.
- Afhandelingsopties voor assets – afbeeldingen en media worden ofwel base64‑gecodeerd of opgeslagen als losse bestanden die in de JSON worden verwezen.
- Aanpasbare output – kies tussen een compacte platte structuur of een hiërarchisch werkboekmodel.
Conversieworkflow (HTML → JSON)
- Maak de Converter – instantieer
HtmlConverter. - Stel Load‑opties in – geef het bron‑HTML‑bestand op en (optioneel) definieer de basis‑URI voor gelinkte bronnen.
- Configureer Save‑opties – gebruik
HtmlSaveOptionsom het JSON‑schema te selecteren, resources in te sluiten en het uitvoerpad in te stellen. - Voer het proces uit – roep
HtmlConverter.Process(loadOptions, saveOptions)aan.
Codevoorbeeld – HTML naar JSON met ingebedde afbeeldingen
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Hoe de JSON eruitziet (vereenvoudigd)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "..."
}]
}]
}]
}Geavanceerde tips
- Selectieve extractie – stel
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }in om irrelevante markup te negeren. - Performance – schakel voor grote HTML‑bestanden
ParallelProcessing = truein bijJsonSaveOptions. - Aangepaste serialisatie – implementeer
IJsonConverterom celwaarden te transformeren (bijv. data naar ISO‑8601).
Uitgebreide formatenondersteuning
Naast JSON kan dezelfde HtmlConverter ook MHTML, CSV, EPUB, AZW3, en zelfs terug naar XLSX targeten. Dit maakt het een universele brug voor gegevensuitwisseling tussen web‑, e‑book‑ en spreadsheet‑ecosystemen.
Met deze stappen kun je betrouwbaar elk HTML‑rapport omzetten naar schone, bruikbare JSON met behulp van Sheetize’s HtmlConverter.