Wie man HTML in JSON konvertiert

Sheetize HtmlConverter für .NET macht es einfach, eine HTML‑Datei zu parsen und eine strukturierte JSON‑Darstellung der darin enthaltenen Tabellendaten zu erzeugen. Der Konverter verarbeitet Inline‑Styles, eingebettete Bilder und komplexe Tabellen und erzeugt sauberes JSON, das von Web‑APIs, Daten‑Pipelines oder Front‑End‑Anwendungen genutzt werden kann.

Warum HTML → JSON konvertieren?

  • JSON ist sprachunabhängig und ideal, um tabellarische Daten über HTTP zu übertragen.
  • Erlaubt es, HTML‑basierte Berichte als Datenquellen für Dashboards, Machine‑Learning‑Modelle oder Mobile‑Apps wiederzuverwenden.
  • Behält das ursprüngliche visuelle Layout im HTML bei und stellt gleichzeitig die zugrunde liegenden Zellwerte, Formeln und Metadaten in programmatischer Form bereit.

Kernfunktionen

  • Vollständige Tabellenauswertung – Zeilen, Spalten, zusammengeführte Zellen und Styles werden erfasst.
  • Asset‑Verarbeitung – Bilder und Medien werden entweder Base64‑kodiert oder als separate Dateien gespeichert und im JSON referenziert.
  • Anpassbare Ausgabe – Auswahl zwischen einer kompakten flachen Struktur oder einem hierarchischen Arbeitsbuch‑Modell.

Konvertierungs‑Workflow (HTML → JSON)

  1. Konverter erstellen – Instanz von HtmlConverter anlegen.
  2. Ladeoptionen festlegen – Pfad zur Quell‑HTML‑Datei angeben und optional die Basis‑URI für verknüpfte Ressourcen definieren.
  3. Speicheroptionen konfigurierenHtmlSaveOptions verwenden, um das JSON‑Schema, das Einbetten von Ressourcen und den Ausgabepfad festzulegen.
  4. Prozess ausführenHtmlConverter.Process(loadOptions, saveOptions) aufrufen.

Code‑Beispiel – HTML zu JSON mit eingebetteten Bildern

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Wie das JSON aussieht (vereinfacht)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "data:image/png;base64,iVBORw0KG..."
      }]
    }]
  }]
}

Erweiterte Tipps

  • Selektive ExtraktionHtmlLoadOptions.IncludeElements = new[] { "table", "img" } setzen, um nicht relevante Markups zu ignorieren.
  • Performance – bei großen HTML‑Dateien ParallelProcessing = true in JsonSaveOptions aktivieren.
  • Benutzerdefinierte SerialisierungIJsonConverter implementieren, um Zellwerte anzupassen (z. B. Daten in ISO‑8601‑Format zu konvertieren).

Erweiterte Formatunterstützung

Neben JSON kann derselbe HtmlConverter MHTML, CSV, EPUB, AZW3 und sogar zurück zu XLSX ausgeben. Damit ist er eine universelle Brücke für den Datenaustausch zwischen Web‑, E‑Book‑ und Tabellenkalkulations‑Ökosystemen.

Mit diesen Schritten können Sie zuverlässig jedes HTML‑Report in sauberes, konsumierbares JSON umwandeln – mit dem Sheetize HtmlConverter.

 Deutsch