Как да конвертираме HTML към JSON

Sheetize HtmlConverter за .NET улеснява парсването на HTML файл и генерирането на структуриран JSON, който представя данните от електронната таблица, съдържани в него. Конверторът обработва вградени стилове, вложени изображения и сложни таблици, създавайки чист JSON, който може да се използва от уеб API‑та, данни‑процеси или фронт‑енд приложения.

Защо да конвертираме HTML → JSON?

  • JSON е независим от езика и е идеален за предаване на таблични данни по HTTP.
  • Позволява повторно използване на HTML‑базирани отчети като източници на данни за табла, модели за машинно обучение или мобилни приложения.
  • Запазва оригиналното визуално оформление в HTML, докато излага стойностите на клетките, формулите и метаданните в програмен вид.

Основни функции

  • Пълно извличане на таблици – редове, колони, обединени клетки и стилове се запазват.
  • Обработка на ресурси – изображенията и медиите се кодират в base64 или се съхраняват като отделни файлове, посочени в JSON.
  • Персонализирана изходна форма – изберете между компактен плосък структури или йерархичен модел на работна книга.

Работен процес на конверсия (HTML → JSON)

  1. Създаване на конвертора – инициализирайте HtmlConverter.
  2. Задаване на опции за зареждане – посочете изходния HTML файл и опционално дефинирайте базовия URI за свързани ресурси.
  3. Конфигуриране на опции за запазване – използвайте HtmlSaveOptions, за да изберете JSON схемата, вграждане на ресурси и пътя на изходния файл.
  4. Изпълнение на процеса – извикайте HtmlConverter.Process(loadOptions, saveOptions).

Примерен код – HTML към JSON с вградени изображения

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Как изглежда JSON‑ът (опростен пример)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Напреднали съвети

  • Избираемо извличане – задайте HtmlLoadOptions.IncludeElements = new[] { "table", "img" }, за да игнорирате нежелан markup.
  • Производителност – при големи HTML файлове активирайте ParallelProcessing = true в JsonSaveOptions.
  • Персонализирано сериализиране – имплементирайте IJsonConverter, за да трансформирате стойностите на клетки (напр. дати към ISO‑8601).

Разширена поддръжка на формати

Освен JSON, същият HtmlConverter може да таргетира MHTML, CSV, EPUB, AZW3, а също и обратно към XLSX. Това го прави универсален мост за обмен на данни между уеб, електронни книги и електронни електронни екосистеми.

С тези стъпки можете надеждно да превърнете всеки HTML отчет в чист, консумиран JSON, използвайки Sheetize HtmlConverter.

 Български