Hur man konverterar HTML till JSON

Sheetize HtmlConverter för .NET gör det enkelt att parsra en HTML‑fil och generera en strukturerad JSON‑representation av de kalkylbladsdata som den innehåller. Konverteraren hanterar inline‑stilar, inbäddade bilder och komplexa tabeller och producerar ren JSON som kan användas av webb‑API:er, datapipelines eller front‑end‑applikationer.

Varför konvertera HTML → JSON?

  • JSON är språkoberoende och perfekt för att överföra tabulära data via HTTP.
  • Gör det möjligt att återanvända HTML‑baserade rapporter som datakällor för dashboards, maskininlärningsmodeller eller mobilappar.
  • Bevarar den ursprungliga visuella layouten i HTML samtidigt som underliggande cellvärden, formler och metadata exponeras i ett programbart format.

Huvudfunktioner

  • Fullständig tabellutdragning – rader, kolumner, sammanslagna celler och stilar fångas.
  • Hantera resurser – bilder och media kodas antingen som base64 eller lagras som separata filer som refereras i JSON‑filen.
  • Anpassningsbar output – välj mellan ett kompakt platt strukturschema eller en hierarkisk arbetsbok‑modell.

Konverteringsflöde (HTML → JSON)

  1. Skapa konverteraren – instansiera HtmlConverter.
  2. Ställ in inläsningsalternativ – peka på käll‑HTML‑filen och ange eventuellt bas‑URI för länkade resurser.
  3. Konfigurera sparalternativ – använd HtmlSaveOptions för att välja JSON‑schemat, inbädda resurser och ange utdata‑sökväg.
  4. Kör processen – anropa HtmlConverter.Process(loadOptions, saveOptions).

Kodexempel – HTML till JSON med inbäddade bilder

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Så ser JSON‑utdata ut (förenklad)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Avancerade tips

  • Selektiv extraktion – sätt HtmlLoadOptions.IncludeElements = new[] { "table", "img" } för att ignorera orelaterad markup.
  • Prestanda – för stora HTML‑filer, aktivera ParallelProcessing = true i JsonSaveOptions.
  • Anpassad serialisering – implementera IJsonConverter för att transformera cellvärden (t.ex. datum till ISO‑8601).

Utökad formatstöd

Förutom JSON kan samma HtmlConverter även rikta in sig på MHTML, CSV, EPUB, AZW3 och till och med tillbaka till XLSX. Detta gör den till en universell brygga för datautbyte mellan webb‑, e‑bok‑ och kalkylblads‑ekosystem.

Med dessa steg kan du på ett pålitligt sätt omvandla vilken HTML‑rapport som helst till ren, konsumabel JSON med Sheetizes HtmlConverter.

 Svenska