Kako pretvoriti HTML u JSON

Sheetize HtmlConverter za .NET omogućuje jednostavno parsiranje HTML datoteke i generiranje strukturiranog JSON prikaza podataka proračunske tablice koju sadrži. Konverter obrađuje inline stilove, ugniježđene slike i složene tablice, stvarajući čist JSON koji se može koristiti u web‑API‑jima, podatkovnim pipeline‑ovima ili frontend aplikacijama.

Zašto pretvoriti HTML → JSON?

  • JSON je jezično neutralan i savršen za prijenos tabličnih podataka putem HTTP‑a.
  • Omogućuje ponovno korištenje HTML‑baziranih izvještaja kao izvora podataka za nadzorne ploče, modele strojnog učenja ili mobilne aplikacije.
  • Zadržava originalni vizualni raspored u HTML‑u, a istovremeno otkriva osnovne vrijednosti ćelija, formule i metapodatke u programabilnom obliku.

Glavni skup značajki

  • Potpuno izdvajanje tablica – redovi, stupci, spojene ćelije i stilovi se bilježe.
  • Upravljanje resursima – slike i mediji se mogu enkodirati u base64 ili pohraniti kao zasebne datoteke na koje se referira u JSON‑u.
  • Prilagodljiv izlaz – odaberite između kompaktne ravne strukture ili hijerarhijskog modela radne knjige.

Tok konverzije (HTML → JSON)

  1. Stvorite konverter – instancirajte HtmlConverter.
  2. Postavite opcije učitavanja – navedite izvorni HTML i po potrebi definirajte bazni URI za povezane resurse.
  3. Konfigurirajte opcije spremanja – koristite HtmlSaveOptions za odabir JSON sheme, ugrađivanje resursa i postavljanje izlazne putanje.
  4. Pokrenite proces – pozovite HtmlConverter.Process(loadOptions, saveOptions).

Primjer koda – HTML u JSON s ugrađenim slikama

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Kako izgleda JSON (pojednostavljeno)

{
  "sheets": [
    {
      "name": "Sheet1",
      "rows": [
        {
          "cells": [
            {
              "address": "A1",
              "value": "Title",
              "style": { "fontWeight": "bold" }
            },
            {
              "address": "B1",
              "value": "Image",
              "image": "..."
            }
          ]
        }
      ]
    }
  ]
}

Napredni savjeti

  • Selektivno izdvajanje – postavite HtmlLoadOptions.IncludeElements = new[] { "table", "img" } kako biste zanemarili irelevantni markup.
  • Performanse – za velike HTML datoteke omogućite ParallelProcessing = true u JsonSaveOptions.
  • Prilagođena serijalizacija – implementirajte IJsonConverter za transformaciju vrijednosti ćelija (npr. datume u ISO‑8601 format).

Proširena podrška formata

Osim JSON‑a, isti HtmlConverter može ciljati MHTML, CSV, EPUB, AZW3, pa čak i natrag XLSX. To ga čini univerzalnim mostom za razmjenu podataka između web, e‑book i proračunskih ekosustava.

Uz ove korake pouzdano ćete pretvoriti bilo koji HTML izvještaj u čist, upotrebljiv JSON koristeći Sheetize‑ov HtmlConverter.

 Hrvatski