Sådan konverteres HTML til JSON
Sheetize HtmlConverter for .NET gør det nemt at parse en HTML‑fil og udskrive en struktureret JSON‑repræsentation af regnearksdataene, den indeholder. Konverteren håndterer inline‑stile, indlejrede billeder og komplekse tabeller og producerer ren JSON, der kan bruges af web‑API’er, datarørledninger eller front‑end‑applikationer.
Hvorfor konvertere HTML → JSON?
- JSON er sprog‑uafhængigt og ideelt til at overføre tabeldata over HTTP.
- Giver dig mulighed for at genbruge HTML‑baserede rapporter som datakilder til dashboards, maskin‑læringsmodeller eller mobilapps.
- Bevarer det oprindelige visuelle layout i HTML, mens de underliggende celleværdier, formler og metadata eksponeres i et programmatisk format.
Kernfunktioner
- Fuld tabel‑ekstraktion – rækker, kolonner, sammenlagte celler og stilarter indsamles.
- Asset‑håndtering – billeder og medier kan enten base64‑enkodes eller gemmes som separate filer, som refereres i JSON‑outputtet.
- Tilpasningsvenlig output – vælg mellem en kompakt flad struktur eller en hierarkisk arbejdsbogsmodel.
Konverterings‑workflow (HTML → JSON)
- Opret konverteren – instansier
HtmlConverter. - Angiv indlæsningsoptioner – peg på kilde‑HTML‑filen og eventuelt definér en base‑URI for linkede ressourcer.
- Konfigurer gemme‑optioner – brug
HtmlSaveOptionstil at vælge JSON‑skemaet, indlejre ressourcer og sætte output‑stien. - Kør processen – kald
HtmlConverter.Process(loadOptions, saveOptions).
Kodeeksempel – HTML til JSON med indlejrede billeder
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Sådan ser JSON‑outputtet ud (forenklet)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "data:image/png;base64,iVBORw0KG..."
}]
}]
}]
}Avancerede tips
- Selektiv ekstraktion – sæt
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }for at ignorere irrelevant markup. - Performance – for store HTML‑filer, aktivér
ParallelProcessing = trueiJsonSaveOptions. - Brugerdefineret serialisering – implementér
IJsonConverterfor at omdanne celleværdier (fx datoer til ISO‑8601).
Udvidet formatunderstøttelse
Udover JSON kan den samme HtmlConverter også målrette MHTML, CSV, EPUB, AZW3 og endda tilbage til XLSX. Det gør den til en universel bro for dataudveksling mellem web, e‑bog‑ og regnearksøkosystemer.
Med disse trin kan du pålideligt omdanne enhver HTML‑rapport til ren, brugbar JSON ved hjælp af Sheetize’s HtmlConverter.