Jak konwertować HTML do JSON
Sheetize HtmlConverter dla .NET ułatwia parsowanie pliku HTML i generowanie ustrukturyzowanej reprezentacji JSON danych arkusza kalkulacyjnego, które w nim się znajdują. Konwerter obsługuje style inline, osadzone obrazy oraz złożone tabele, generując czysty JSON, który może być wykorzystywany przez API internetowe, potoki danych lub aplikacje front‑end.
Dlaczego konwertować HTML → JSON?
- JSON jest językowo neutralny i idealny do przesyłania danych tabelarycznych przez HTTP.
- Pozwala ponownie wykorzystać raporty oparte na HTML jako źródła danych dla pulpitów nawigacyjnych, modeli uczenia maszynowego lub aplikacji mobilnych.
- Zachowuje oryginalny układ wizualny w HTML, jednocześnie udostępniając wartości komórek, formuły i metadane w formie programistycznej.
Główne funkcje
- Pełna ekstrakcja tabel – wiersze, kolumny, scalone komórki i style są zachowywane.
- Obsługa zasobów – obrazy i multimedia są kodowane w base64 lub przechowywane jako osobne pliki, na które odwołuje się JSON.
- Konfigurowalny wynik – wybierz pomiędzy zwartą, płaską strukturą a hierarchicznym modelem skoroszytu.
Przebieg konwersji (HTML → JSON)
- Utwórz konwerter – zainicjuj
HtmlConverter. - Ustaw opcje ładowania – wskaż plik źródłowy HTML i opcjonalnie określ bazowy URI dla połączonych zasobów.
- Skonfiguruj opcje zapisu – użyj
HtmlSaveOptions, aby wybrać schemat JSON, osadzić zasoby i określić ścieżkę wyjściową. - Uruchom proces – wywołaj
HtmlConverter.Process(loadOptions, saveOptions).
Przykład kodu – HTML do JSON z osadzonymi obrazami
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Jak wygląda JSON (uproszczony)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "..."
}]
}]
}]
}Zaawansowane wskazówki
- Selektywna ekstrakcja – ustaw
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }, aby pominąć niepowiązane elementy markup. - Wydajność – dla dużych plików HTML włącz
ParallelProcessing = truewJsonSaveOptions. - Niestandardowa serializacja – zaimplementuj
IJsonConverter, aby przekształcać wartości komórek (np. daty na format ISO‑8601).
Rozszerzone wsparcie formatów
Oprócz JSON, ten sam HtmlConverter może generować MHTML, CSV, EPUB, AZW3, a nawet powrót do XLSX. Dzięki temu jest uniwersalnym mostem wymiany danych między ekosystemami web, e‑book i arkuszy kalkulacyjnych.
Korzystając z powyższych kroków, możesz niezawodnie przekształcić dowolny raport HTML w czysty, gotowy do konsumpcji JSON przy użyciu Sheetize HtmlConverter.