Как да конвертираме HTML към JSON
Sheetize HtmlConverter за .NET улеснява парсването на HTML файл и генерирането на структуриран JSON, който представя данните от електронната таблица, съдържани в него. Конверторът обработва вградени стилове, вложени изображения и сложни таблици, създавайки чист JSON, който може да се използва от уеб API‑та, данни‑процеси или фронт‑енд приложения.
Защо да конвертираме HTML → JSON?
- JSON е независим от езика и е идеален за предаване на таблични данни по HTTP.
- Позволява повторно използване на HTML‑базирани отчети като източници на данни за табла, модели за машинно обучение или мобилни приложения.
- Запазва оригиналното визуално оформление в HTML, докато излага стойностите на клетките, формулите и метаданните в програмен вид.
Основни функции
- Пълно извличане на таблици – редове, колони, обединени клетки и стилове се запазват.
- Обработка на ресурси – изображенията и медиите се кодират в base64 или се съхраняват като отделни файлове, посочени в JSON.
- Персонализирана изходна форма – изберете между компактен плосък структури или йерархичен модел на работна книга.
Работен процес на конверсия (HTML → JSON)
- Създаване на конвертора – инициализирайте
HtmlConverter. - Задаване на опции за зареждане – посочете изходния HTML файл и опционално дефинирайте базовия URI за свързани ресурси.
- Конфигуриране на опции за запазване – използвайте
HtmlSaveOptions, за да изберете JSON схемата, вграждане на ресурси и пътя на изходния файл. - Изпълнение на процеса – извикайте
HtmlConverter.Process(loadOptions, saveOptions).
Примерен код – HTML към JSON с вградени изображения
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Как изглежда JSON‑ът (опростен пример)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "data:image/png;base64,iVBORw0KG..."
}]
}]
}]
}Напреднали съвети
- Избираемо извличане – задайте
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }, за да игнорирате нежелан markup. - Производителност – при големи HTML файлове активирайте
ParallelProcessing = trueвJsonSaveOptions. - Персонализирано сериализиране – имплементирайте
IJsonConverter, за да трансформирате стойностите на клетки (напр. дати към ISO‑8601).
Разширена поддръжка на формати
Освен JSON, същият HtmlConverter може да таргетира MHTML, CSV, EPUB, AZW3, а също и обратно към XLSX. Това го прави универсален мост за обмен на данни между уеб, електронни книги и електронни електронни екосистеми.
С тези стъпки можете надеждно да превърнете всеки HTML отчет в чист, консумиран JSON, използвайки Sheetize HtmlConverter.