Hogyan konvertáljunk HTML-t JSON-re

Sheetize HtmlConverter for .NET megkönnyíti egy HTML‑fájl beolvasását és egy strukturált JSON‑reprezentáció előállítását a benne található táblázati adatok számára. A konverter kezeli a beágyazott stílusokat, képeket és összetett táblázatokat, tiszta JSON‑t generál, amely felhasználható web‑API‑k, adatcsővezetékek vagy front‑end alkalmazások számára.

Miért konvertáljunk HTML → JSON‑ra?

  • A JSON nyelvfüggetlen, és tökéletes a táblázatos adatok HTTP‑n keresztüli továbbításához.
  • Lehetővé teszi, hogy a HTML‑alapú jelentéseket adatforrásként újrahasználd dashboardokhoz, gépi‑tanulási modellekhez vagy mobilalkalmazásokhoz.
  • Megőrzi az eredeti vizuális elrendezést a HTML‑ben, miközben a cellaértékeket, képleteket és metaadatokat programozott formában teszi elérhetővé.

Főbb funkciók

  • Teljes táblázatkivonás – sorok, oszlopok, egyesített cellák és stílusok is rögzítésre kerülnek.
  • Eszközkezelés – a képek és egyéb médiaelemek vagy base64‑kódolva, vagy külön fájlként kerülnek tárolásra, és a JSON‑ban hivatkoznak rájuk.
  • Testreszabható kimenet – választhatsz egy kompakt lapos struktúra vagy egy hierarchikus munkafüzet modell között.

Konverziós munkafolyamat (HTML → JSON)

  1. Konverter létrehozása – példányosítsd a HtmlConverter‑t.
  2. Betöltési beállítások megadása – add meg a forrás‑HTML‑fájlt, és opcionálisan a kapcsolódó erőforrások alap‑URI‑ját.
  3. Mentési beállítások konfigurálása – a HtmlSaveOptions‑sal válaszd ki a JSON‑sémát, ágyazd be az erőforrásokat, és állítsd be a kimeneti útvonalat.
  4. Futtatás – hívd meg a HtmlConverter.Process(loadOptions, saveOptions)‑t.

Kódrészlet – HTML → JSON beágyazott képekkel

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

A JSON kinézete (egyszerűsített)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Haladó tippek

  • Szelektív kinyerés – állítsd be a HtmlLoadOptions.IncludeElements = new[] { "table", "img" }‑t, hogy a nem releváns markupot figyelmen kívül hagyd.
  • Teljesítmény – nagy HTML‑fájlok esetén kapcsold be a ParallelProcessing = true opciót a JsonSaveOptions‑ban.
  • Egyedi sorosítás – valósítsd meg az IJsonConverter interfészt, hogy a cellaértékeket átalakítsd (például dátumok ISO‑8601 formátumba).

Kiterjesztett formátumtámogatás

A JSON‑on kívül a HtmlConverter képes célba venni MHTML, CSV, EPUB, AZW3 formátumokat, sőt akár vissza is konvertálni XLSX‑re. Így univerzális hídként működik a web, e‑könyv és táblázatkezelő ökoszisztémák között.

Ezekkel a lépésekkel megbízhatóan alakíthatod bármely HTML‑jelentést tiszta, fogyasztható JSON‑ra a Sheetize HtmlConverter segítségével.

 Magyar