Како претворити HTML у JSON
Sheetize HtmlConverter за .NET олакшава парсирање HTML датотеке и генерисање структурираног JSON представљања података табеле који се у њој налазе. Конвертер рукује инлајн стиловима, уграђеним сликама и сложеним табелама, производећи чист JSON који се може искористити у веб API‑има, подацима‑потзрекама или фронт‑енд апликацијама.
Зашто конвертовати HTML → JSON?
- JSON је независан од језика и одличан је за пренос табеларних података преко HTTP‑а.
- Омогућава поновно коришћење HTML извештаја као извора података за контролне табле, моделе машинског учења или мобилне апликације.
- Чува оригинални визуелни изглед у HTML‑у, док излази подаци о вредностима ћелија, формулама и мета‑подацима у програмском формату.
Кључне карактеристике
- Пуна екстракција табела – редови, колоне, спојене ћелије и стилови се снимају.
- Руковање ресурсима – слике и медији се или кодирају у base64 или се чувају као посебне датотеке на које се упућује у JSON‑у.
- Прилагодљив излаз – можете изабрати између компактне плоске структуре или хијерархијског модела радних књига.
Радни ток конверзије (HTML → JSON)
- Креирајте конвертер – инстанцирајте
HtmlConverter. - Подесите опције учитавања – наведите изворну HTML датотеку и, по потреби, базни URI за повезане ресурсе.
- Конфигуришите опције чувања – користите
HtmlSaveOptionsда изаберете JSON шему, да уградите ресурсе и да поставите путању излаза. - Извршите процес – позовите
HtmlConverter.Process(loadOptions, saveOptions).
Пример кода – HTML у JSON са уграђеним сликама
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Како JSON изгледа (поједностављено)
{
"sheets": [
{
"name": "Sheet1",
"rows": [
{
"cells": [
{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
},
{
"address": "B1",
"value": "Image",
"image": "data:image/png;base64,iVBORw0KG..."
}
]
}
]
}
]
}Напредни савети
- Селективна екстракција – поставите
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }да игноришете неповезани маркап. - Перформансе – за велики HTML датотеке, омогућите
ParallelProcessing = trueуJsonSaveOptions. - Прилагођено серијално – имплементирајте
IJsonConverterда трансформишете вредности ћелија (нпр. датуме у ISO‑8601).
Проширена подршка формата
Осим JSON‑а, исти HtmlConverter може да генерише MHTML, CSV, EPUB, AZW3, а такође и назад у XLSX. Ово га чини универзалним спојем за размену података између веб, е‑књиге и електронских таблица.
Са овим корацима можете поуздано претвратити било који HTML извештај у чист, потрошни JSON користећи Sheetize‑ов HtmlConverter.