Ako previesť HTML na JSON

Sheetize HtmlConverter pre .NET uľahčuje analýzu HTML súboru a vytvorenie štruktúrovanej JSON reprezentácie tabuľkových dát, ktoré obsahuje. Konvertér spracúva inline štýly, vložené obrázky a zložité tabuľky a generuje čistý JSON, ktorý môžete použiť v webových API, dátových pipeline‑och alebo front‑end aplikáciách.

Prečo konvertovať HTML → JSON?

  • JSON je jazykovo neutrálny a ideálny na prenos tabuľkových dát cez HTTP.
  • Umožňuje opätovné použitie HTML‑reportov ako zdrojov dát pre dashboardy, modely strojového učenia alebo mobilné aplikácie.
  • Zachováva pôvodné vizuálne rozloženie v HTML a zároveň odhaľuje podkladové hodnoty buniek, vzorce a metadáta v programovateľnej forme.

Hlavné funkcie

  • Úplná extrakcia tabuliek – zachytáva riadky, stĺpce, zlúčené bunky aj štýly.
  • Spracovanie aktív – obrázky a multimédiá sú buď kódované v base64, alebo uložené ako samostatné súbory odkazované v JSON.
  • Prispôsobiteľný výstup – môžete zvoliť kompaktnú plochú štruktúru alebo hierarchický model zošita.

Pracovný postup konverzie (HTML → JSON)

  1. Vytvorte konvertér – inicializujte HtmlConverter.
  2. Nastavte možnosti načítania – určte zdrojový HTML súbor a voliteľne základnú URI pre prepojené zdroje.
  3. Konfigurujte možnosti ukladania – použite HtmlSaveOptions na výber JSON schémy, vloženie zdrojov a nastavenie výstupnej cesty.
  4. Spustite proces – zavolajte HtmlConverter.Process(loadOptions, saveOptions).

Ukážka kódu – HTML na JSON s vloženými obrázkami

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Ako vyzerá JSON (zjednodušený príklad)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "data:image/png;base64,iVBORw0KG..."
      }]
    }]
  }]
}

Pokročilé tipy

  • Selektívna extrakcia – nastavením HtmlLoadOptions.IncludeElements = new[] { "table", "img" } ignorujete nepodstatný markup.
  • Výkon – pre veľké HTML súbory zapnite ParallelProcessing = true v JsonSaveOptions.
  • Vlastná serializácia – implementujte rozhranie IJsonConverter a transformujte hodnoty buniek (napr. dátumy na ISO‑8601).

Rozšírená podpora formátov

Okrem JSON môže rovnaký HtmlConverter cieliť MHTML, CSV, EPUB, AZW3 a dokonca späť na XLSX. To z neho robí univerzálny mostík pre výmenu dát medzi webom, e‑knihami a tabuľkovými ekosystémami.

S týmito krokmi môžete spoľahlivo previesť akýkoľvek HTML report na čistý, spotrebovateľný JSON pomocou Sheetize HtmlConverter.

 Slovenčina