Jak převést HTML na JSON

Sheetize HtmlConverter pro .NET usnadňuje načtení HTML souboru a vytvoření strukturované JSON reprezentace tabulkových dat, která obsahuje. Konvertor zpracovává vložené styly, obrázky a složité tabulky a produkuje čistý JSON, který lze použít v webových API, datových pipelinech nebo front‑endových aplikacích.

Proč převádět HTML → JSON?

  • JSON je jazykově nezávislý a ideální pro přenos tabulkových dat přes HTTP.
  • Umožňuje znovupoužití HTML‑založených reportů jako zdrojů dat pro dashboardy, modely strojového učení nebo mobilní aplikace.
  • Zachovává původní vizuální rozložení v HTML a zároveň vystavuje podkladové hodnoty buněk, vzorce a metadata ve programovatelném formátu.

Hlavní sadu funkcí

  • Kompletní extrakce tabulek – řádky, sloupce, sloučené buňky a styly jsou zachyceny.
  • Zpracování aktiv – obrázky a média jsou buď zakódovány v base64, nebo uloženy jako samostatné soubory a v JSON jsou na ně odkazovány.
  • Přizpůsobitelný výstup – můžete zvolit kompaktní plochou strukturu nebo hierarchický model sešitu.

Postup převodu (HTML → JSON)

  1. Vytvořte konvertor – vytvořte instanci HtmlConverter.
  2. Nastavte možnosti načtení – určete vstupní HTML soubor a případně základní URI pro propojené prostředky.
  3. Nakonfigurujte možnosti uložení – pomocí HtmlSaveOptions vyberte schéma JSON, vložení prostředků a cílovou cestu.
  4. Spusťte proces – zavolejte HtmlConverter.Process(loadOptions, saveOptions).

Ukázka kódu – HTML na JSON s vloženými obrázky

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Jak JSON vypadá (zjednodušeně)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Pokročilé tipy

  • Selektivní extrakce – nastavte HtmlLoadOptions.IncludeElements = new[] { "table", "img" }, abyste ignorovali ne‑relevantní značky.
  • Výkon – pro velké HTML soubory povolte ParallelProcessing = true v JsonSaveOptions.
  • Vlastní serializace – implementujte IJsonConverter a transformujte hodnoty buněk (např. data na ISO‑8601).

Rozšířená podpora formátů

Kromě JSON může stejný HtmlConverter cílit i na MHTML, CSV, EPUB, AZW3 a dokonce zpět na XLSX. To z něj činí univerzální most pro výměnu dat mezi webem, e‑knihami a tabulkovými ekosystémy.

S těmito kroky můžete spolehlivě převést libovolný HTML report na čistý, spotřebovatelný JSON pomocí Sheetize HtmlConverter.

 Čeština