Jak konwertować HTML do JSON

Sheetize HtmlConverter dla .NET ułatwia parsowanie pliku HTML i generowanie ustrukturyzowanej reprezentacji JSON danych arkusza kalkulacyjnego, które w nim się znajdują. Konwerter obsługuje style inline, osadzone obrazy oraz złożone tabele, generując czysty JSON, który może być wykorzystywany przez API internetowe, potoki danych lub aplikacje front‑end.

Dlaczego konwertować HTML → JSON?

  • JSON jest językowo neutralny i idealny do przesyłania danych tabelarycznych przez HTTP.
  • Pozwala ponownie wykorzystać raporty oparte na HTML jako źródła danych dla pulpitów nawigacyjnych, modeli uczenia maszynowego lub aplikacji mobilnych.
  • Zachowuje oryginalny układ wizualny w HTML, jednocześnie udostępniając wartości komórek, formuły i metadane w formie programistycznej.

Główne funkcje

  • Pełna ekstrakcja tabel – wiersze, kolumny, scalone komórki i style są zachowywane.
  • Obsługa zasobów – obrazy i multimedia są kodowane w base64 lub przechowywane jako osobne pliki, na które odwołuje się JSON.
  • Konfigurowalny wynik – wybierz pomiędzy zwartą, płaską strukturą a hierarchicznym modelem skoroszytu.

Przebieg konwersji (HTML → JSON)

  1. Utwórz konwerter – zainicjuj HtmlConverter.
  2. Ustaw opcje ładowania – wskaż plik źródłowy HTML i opcjonalnie określ bazowy URI dla połączonych zasobów.
  3. Skonfiguruj opcje zapisu – użyj HtmlSaveOptions, aby wybrać schemat JSON, osadzić zasoby i określić ścieżkę wyjściową.
  4. Uruchom proces – wywołaj HtmlConverter.Process(loadOptions, saveOptions).

Przykład kodu – HTML do JSON z osadzonymi obrazami

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Jak wygląda JSON (uproszczony)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "data:image/png;base64,iVBORw0KG..."
      }]
    }]
  }]
}

Zaawansowane wskazówki

  • Selektywna ekstrakcja – ustaw HtmlLoadOptions.IncludeElements = new[] { "table", "img" }, aby pominąć niepowiązane elementy markup.
  • Wydajność – dla dużych plików HTML włącz ParallelProcessing = true w JsonSaveOptions.
  • Niestandardowa serializacja – zaimplementuj IJsonConverter, aby przekształcać wartości komórek (np. daty na format ISO‑8601).

Rozszerzone wsparcie formatów

Oprócz JSON, ten sam HtmlConverter może generować MHTML, CSV, EPUB, AZW3, a nawet powrót do XLSX. Dzięki temu jest uniwersalnym mostem wymiany danych między ekosystemami web, e‑book i arkuszy kalkulacyjnych.

Korzystając z powyższych kroków, możesz niezawodnie przekształcić dowolny raport HTML w czysty, gotowy do konsumpcji JSON przy użyciu Sheetize HtmlConverter.

 Polski