Ako previesť HTML na JSON
Sheetize HtmlConverter pre .NET uľahčuje analýzu HTML súboru a vytvorenie štruktúrovanej JSON reprezentácie tabuľkových dát, ktoré obsahuje. Konvertér spracúva inline štýly, vložené obrázky a zložité tabuľky a generuje čistý JSON, ktorý môžete použiť v webových API, dátových pipeline‑och alebo front‑end aplikáciách.
Prečo konvertovať HTML → JSON?
- JSON je jazykovo neutrálny a ideálny na prenos tabuľkových dát cez HTTP.
- Umožňuje opätovné použitie HTML‑reportov ako zdrojov dát pre dashboardy, modely strojového učenia alebo mobilné aplikácie.
- Zachováva pôvodné vizuálne rozloženie v HTML a zároveň odhaľuje podkladové hodnoty buniek, vzorce a metadáta v programovateľnej forme.
Hlavné funkcie
- Úplná extrakcia tabuliek – zachytáva riadky, stĺpce, zlúčené bunky aj štýly.
- Spracovanie aktív – obrázky a multimédiá sú buď kódované v base64, alebo uložené ako samostatné súbory odkazované v JSON.
- Prispôsobiteľný výstup – môžete zvoliť kompaktnú plochú štruktúru alebo hierarchický model zošita.
Pracovný postup konverzie (HTML → JSON)
- Vytvorte konvertér – inicializujte
HtmlConverter. - Nastavte možnosti načítania – určte zdrojový HTML súbor a voliteľne základnú URI pre prepojené zdroje.
- Konfigurujte možnosti ukladania – použite
HtmlSaveOptionsna výber JSON schémy, vloženie zdrojov a nastavenie výstupnej cesty. - Spustite proces – zavolajte
HtmlConverter.Process(loadOptions, saveOptions).
Ukážka kódu – HTML na JSON s vloženými obrázkami
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Ako vyzerá JSON (zjednodušený príklad)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "data:image/png;base64,iVBORw0KG..."
}]
}]
}]
}Pokročilé tipy
- Selektívna extrakcia – nastavením
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }ignorujete nepodstatný markup. - Výkon – pre veľké HTML súbory zapnite
ParallelProcessing = truevJsonSaveOptions. - Vlastná serializácia – implementujte rozhranie
IJsonConvertera transformujte hodnoty buniek (napr. dátumy na ISO‑8601).
Rozšírená podpora formátov
Okrem JSON môže rovnaký HtmlConverter cieliť MHTML, CSV, EPUB, AZW3 a dokonca späť na XLSX. To z neho robí univerzálny mostík pre výmenu dát medzi webom, e‑knihami a tabuľkovými ekosystémami.
S týmito krokmi môžete spoľahlivo previesť akýkoľvek HTML report na čistý, spotrebovateľný JSON pomocou Sheetize HtmlConverter.