Sådan konverteres HTML til JSON

Sheetize HtmlConverter for .NET gør det nemt at parse en HTML‑fil og udskrive en struktureret JSON‑repræsentation af regnearksdataene, den indeholder. Konverteren håndterer inline‑stile, indlejrede billeder og komplekse tabeller og producerer ren JSON, der kan bruges af web‑API’er, datarørledninger eller front‑end‑applikationer.

Hvorfor konvertere HTML → JSON?

  • JSON er sprog‑uafhængigt og ideelt til at overføre tabeldata over HTTP.
  • Giver dig mulighed for at genbruge HTML‑baserede rapporter som datakilder til dashboards, maskin‑læringsmodeller eller mobilapps.
  • Bevarer det oprindelige visuelle layout i HTML, mens de underliggende celleværdier, formler og metadata eksponeres i et programmatisk format.

Kernfunktioner

  • Fuld tabel‑ekstraktion – rækker, kolonner, sammenlagte celler og stilarter indsamles.
  • Asset‑håndtering – billeder og medier kan enten base64‑enkodes eller gemmes som separate filer, som refereres i JSON‑outputtet.
  • Tilpasningsvenlig output – vælg mellem en kompakt flad struktur eller en hierarkisk arbejdsbogsmodel.

Konverterings‑workflow (HTML → JSON)

  1. Opret konverteren – instansier HtmlConverter.
  2. Angiv indlæsningsoptioner – peg på kilde‑HTML‑filen og eventuelt definér en base‑URI for linkede ressourcer.
  3. Konfigurer gemme‑optioner – brug HtmlSaveOptions til at vælge JSON‑skemaet, indlejre ressourcer og sætte output‑stien.
  4. Kør processen – kald HtmlConverter.Process(loadOptions, saveOptions).

Kodeeksempel – HTML til JSON med indlejrede billeder

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Sådan ser JSON‑outputtet ud (forenklet)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Avancerede tips

  • Selektiv ekstraktion – sæt HtmlLoadOptions.IncludeElements = new[] { "table", "img" } for at ignorere irrelevant markup.
  • Performance – for store HTML‑filer, aktivér ParallelProcessing = true i JsonSaveOptions.
  • Brugerdefineret serialisering – implementér IJsonConverter for at omdanne celleværdier (fx datoer til ISO‑8601).

Udvidet formatunderstøttelse

Udover JSON kan den samme HtmlConverter også målrette MHTML, CSV, EPUB, AZW3 og endda tilbage til XLSX. Det gør den til en universel bro for dataudveksling mellem web, e‑bog‑ og regnearksøkosystemer.

Med disse trin kan du pålideligt omdanne enhver HTML‑rapport til ren, brugbar JSON ved hjælp af Sheetize’s HtmlConverter.

 Dansk