Hur man konverterar HTML till JSON
Sheetize HtmlConverter för .NET gör det enkelt att parsra en HTML‑fil och generera en strukturerad JSON‑representation av de kalkylbladsdata som den innehåller. Konverteraren hanterar inline‑stilar, inbäddade bilder och komplexa tabeller och producerar ren JSON som kan användas av webb‑API:er, datapipelines eller front‑end‑applikationer.
Varför konvertera HTML → JSON?
- JSON är språkoberoende och perfekt för att överföra tabulära data via HTTP.
- Gör det möjligt att återanvända HTML‑baserade rapporter som datakällor för dashboards, maskininlärningsmodeller eller mobilappar.
- Bevarar den ursprungliga visuella layouten i HTML samtidigt som underliggande cellvärden, formler och metadata exponeras i ett programbart format.
Huvudfunktioner
- Fullständig tabellutdragning – rader, kolumner, sammanslagna celler och stilar fångas.
- Hantera resurser – bilder och media kodas antingen som base64 eller lagras som separata filer som refereras i JSON‑filen.
- Anpassningsbar output – välj mellan ett kompakt platt strukturschema eller en hierarkisk arbetsbok‑modell.
Konverteringsflöde (HTML → JSON)
- Skapa konverteraren – instansiera
HtmlConverter. - Ställ in inläsningsalternativ – peka på käll‑HTML‑filen och ange eventuellt bas‑URI för länkade resurser.
- Konfigurera sparalternativ – använd
HtmlSaveOptionsför att välja JSON‑schemat, inbädda resurser och ange utdata‑sökväg. - Kör processen – anropa
HtmlConverter.Process(loadOptions, saveOptions).
Kodexempel – HTML till JSON med inbäddade bilder
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Så ser JSON‑utdata ut (förenklad)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "data:image/png;base64,iVBORw0KG..."
}]
}]
}]
}Avancerade tips
- Selektiv extraktion – sätt
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }för att ignorera orelaterad markup. - Prestanda – för stora HTML‑filer, aktivera
ParallelProcessing = trueiJsonSaveOptions. - Anpassad serialisering – implementera
IJsonConverterför att transformera cellvärden (t.ex. datum till ISO‑8601).
Utökad formatstöd
Förutom JSON kan samma HtmlConverter även rikta in sig på MHTML, CSV, EPUB, AZW3 och till och med tillbaka till XLSX. Detta gör den till en universell brygga för datautbyte mellan webb‑, e‑bok‑ och kalkylblads‑ekosystem.
Med dessa steg kan du på ett pålitligt sätt omvandla vilken HTML‑rapport som helst till ren, konsumabel JSON med Sheetizes HtmlConverter.