Како претворити HTML у JSON

Sheetize HtmlConverter за .NET олакшава парсирање HTML датотеке и генерисање структурираног JSON представљања података табеле који се у њој налазе. Конвертер рукује инлајн стиловима, уграђеним сликама и сложеним табелама, производећи чист JSON који се може искористити у веб API‑има, подацима‑потзрекама или фронт‑енд апликацијама.

Зашто конвертовати HTML → JSON?

  • JSON је независан од језика и одличан је за пренос табеларних података преко HTTP‑а.
  • Омогућава поновно коришћење HTML извештаја као извора података за контролне табле, моделе машинског учења или мобилне апликације.
  • Чува оригинални визуелни изглед у HTML‑у, док излази подаци о вредностима ћелија, формулама и мета‑подацима у програмском формату.

Кључне карактеристике

  • Пуна екстракција табела – редови, колоне, спојене ћелије и стилови се снимају.
  • Руковање ресурсима – слике и медији се или кодирају у base64 или се чувају као посебне датотеке на које се упућује у JSON‑у.
  • Прилагодљив излаз – можете изабрати између компактне плоске структуре или хијерархијског модела радних књига.

Радни ток конверзије (HTML → JSON)

  1. Креирајте конвертер – инстанцирајте HtmlConverter.
  2. Подесите опције учитавања – наведите изворну HTML датотеку и, по потреби, базни URI за повезане ресурсе.
  3. Конфигуришите опције чувања – користите HtmlSaveOptions да изаберете JSON шему, да уградите ресурсе и да поставите путању излаза.
  4. Извршите процес – позовите HtmlConverter.Process(loadOptions, saveOptions).

Пример кода – HTML у JSON са уграђеним сликама

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Како JSON изгледа (поједностављено)

{
  "sheets": [
    {
      "name": "Sheet1",
      "rows": [
        {
          "cells": [
            {
              "address": "A1",
              "value": "Title",
              "style": { "fontWeight": "bold" }
            },
            {
              "address": "B1",
              "value": "Image",
              "image": "data:image/png;base64,iVBORw0KG..."
            }
          ]
        }
      ]
    }
  ]
}

Напредни савети

  • Селективна екстракција – поставите HtmlLoadOptions.IncludeElements = new[] { "table", "img" } да игноришете неповезани маркап.
  • Перформансе – за велики HTML датотеке, омогућите ParallelProcessing = true у JsonSaveOptions.
  • Прилагођено серијално – имплементирајте IJsonConverter да трансформишете вредности ћелија (нпр. датуме у ISO‑8601).

Проширена подршка формата

Осим JSON‑а, исти HtmlConverter може да генерише MHTML, CSV, EPUB, AZW3, а такође и назад у XLSX. Ово га чини универзалним спојем за размену података између веб, е‑књиге и електронских таблица.

Са овим корацима можете поуздано претвратити било који HTML извештај у чист, потрошни JSON користећи Sheetize‑ов HtmlConverter.

 Српски