Hogyan konvertáljunk HTML-t JSON-re
Sheetize HtmlConverter for .NET megkönnyíti egy HTML‑fájl beolvasását és egy strukturált JSON‑reprezentáció előállítását a benne található táblázati adatok számára. A konverter kezeli a beágyazott stílusokat, képeket és összetett táblázatokat, tiszta JSON‑t generál, amely felhasználható web‑API‑k, adatcsővezetékek vagy front‑end alkalmazások számára.
Miért konvertáljunk HTML → JSON‑ra?
- A JSON nyelvfüggetlen, és tökéletes a táblázatos adatok HTTP‑n keresztüli továbbításához.
- Lehetővé teszi, hogy a HTML‑alapú jelentéseket adatforrásként újrahasználd dashboardokhoz, gépi‑tanulási modellekhez vagy mobilalkalmazásokhoz.
- Megőrzi az eredeti vizuális elrendezést a HTML‑ben, miközben a cellaértékeket, képleteket és metaadatokat programozott formában teszi elérhetővé.
Főbb funkciók
- Teljes táblázatkivonás – sorok, oszlopok, egyesített cellák és stílusok is rögzítésre kerülnek.
- Eszközkezelés – a képek és egyéb médiaelemek vagy base64‑kódolva, vagy külön fájlként kerülnek tárolásra, és a JSON‑ban hivatkoznak rájuk.
- Testreszabható kimenet – választhatsz egy kompakt lapos struktúra vagy egy hierarchikus munkafüzet modell között.
Konverziós munkafolyamat (HTML → JSON)
- Konverter létrehozása – példányosítsd a
HtmlConverter‑t. - Betöltési beállítások megadása – add meg a forrás‑HTML‑fájlt, és opcionálisan a kapcsolódó erőforrások alap‑URI‑ját.
- Mentési beállítások konfigurálása – a
HtmlSaveOptions‑sal válaszd ki a JSON‑sémát, ágyazd be az erőforrásokat, és állítsd be a kimeneti útvonalat. - Futtatás – hívd meg a
HtmlConverter.Process(loadOptions, saveOptions)‑t.
Kódrészlet – HTML → JSON beágyazott képekkel
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);A JSON kinézete (egyszerűsített)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "..."
}]
}]
}]
}Haladó tippek
- Szelektív kinyerés – állítsd be a
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }‑t, hogy a nem releváns markupot figyelmen kívül hagyd. - Teljesítmény – nagy HTML‑fájlok esetén kapcsold be a
ParallelProcessing = trueopciót aJsonSaveOptions‑ban. - Egyedi sorosítás – valósítsd meg az
IJsonConverterinterfészt, hogy a cellaértékeket átalakítsd (például dátumok ISO‑8601 formátumba).
Kiterjesztett formátumtámogatás
A JSON‑on kívül a HtmlConverter képes célba venni MHTML, CSV, EPUB, AZW3 formátumokat, sőt akár vissza is konvertálni XLSX‑re. Így univerzális hídként működik a web, e‑könyv és táblázatkezelő ökoszisztémák között.
Ezekkel a lépésekkel megbízhatóan alakíthatod bármely HTML‑jelentést tiszta, fogyasztható JSON‑ra a Sheetize HtmlConverter segítségével.