Kako pretvoriti HTML u JSON
Sheetize HtmlConverter za .NET omogućuje jednostavno parsiranje HTML datoteke i generiranje strukturiranog JSON prikaza podataka proračunske tablice koju sadrži. Konverter obrađuje inline stilove, ugniježđene slike i složene tablice, stvarajući čist JSON koji se može koristiti u web‑API‑jima, podatkovnim pipeline‑ovima ili frontend aplikacijama.
Zašto pretvoriti HTML → JSON?
- JSON je jezično neutralan i savršen za prijenos tabličnih podataka putem HTTP‑a.
- Omogućuje ponovno korištenje HTML‑baziranih izvještaja kao izvora podataka za nadzorne ploče, modele strojnog učenja ili mobilne aplikacije.
- Zadržava originalni vizualni raspored u HTML‑u, a istovremeno otkriva osnovne vrijednosti ćelija, formule i metapodatke u programabilnom obliku.
Glavni skup značajki
- Potpuno izdvajanje tablica – redovi, stupci, spojene ćelije i stilovi se bilježe.
- Upravljanje resursima – slike i mediji se mogu enkodirati u base64 ili pohraniti kao zasebne datoteke na koje se referira u JSON‑u.
- Prilagodljiv izlaz – odaberite između kompaktne ravne strukture ili hijerarhijskog modela radne knjige.
Tok konverzije (HTML → JSON)
- Stvorite konverter – instancirajte
HtmlConverter. - Postavite opcije učitavanja – navedite izvorni HTML i po potrebi definirajte bazni URI za povezane resurse.
- Konfigurirajte opcije spremanja – koristite
HtmlSaveOptionsza odabir JSON sheme, ugrađivanje resursa i postavljanje izlazne putanje. - Pokrenite proces – pozovite
HtmlConverter.Process(loadOptions, saveOptions).
Primjer koda – HTML u JSON s ugrađenim slikama
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Kako izgleda JSON (pojednostavljeno)
{
"sheets": [
{
"name": "Sheet1",
"rows": [
{
"cells": [
{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
},
{
"address": "B1",
"value": "Image",
"image": "..."
}
]
}
]
}
]
}Napredni savjeti
- Selektivno izdvajanje – postavite
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }kako biste zanemarili irelevantni markup. - Performanse – za velike HTML datoteke omogućite
ParallelProcessing = trueuJsonSaveOptions. - Prilagođena serijalizacija – implementirajte
IJsonConverterza transformaciju vrijednosti ćelija (npr. datume u ISO‑8601 format).
Proširena podrška formata
Osim JSON‑a, isti HtmlConverter može ciljati MHTML, CSV, EPUB, AZW3, pa čak i natrag XLSX. To ga čini univerzalnim mostom za razmjenu podataka između web, e‑book i proračunskih ekosustava.
Uz ove korake pouzdano ćete pretvoriti bilo koji HTML izvještaj u čist, upotrebljiv JSON koristeći Sheetize‑ov HtmlConverter.