Kuinka muuntaa HTML JSONiksi

Sheetize HtmlConverter .NET‑alustalle tekee HTML‑tiedoston jäsentämisestä ja sen sisältämän taulukon datan strukturoituun JSON‑muotoon muuntamisesta helppoa. Muunnin käsittelee sisäiset tyylit, upotetut kuvat ja monimutkaiset taulukot, tuottaen puhdasta JSONia, jota voidaan käyttää verkkorajapinnoissa, dataputkissa tai front‑end‑sovelluksissa.

Miksi muuntaa HTML → JSON?

  • JSON on kieliriippumaton ja täydellinen tapa siirtää taulukkodataa HTTP:n yli.
  • Mahdollistaa HTML‑pohjaisten raporttien uudelleenkäytön tietolähteinä koontinäyttöihin, koneoppimismalleihin tai mobiilisovelluksiin.
  • Säilyttää alkuperäisen visuaalisen asettelun HTML‑tiedostossa samalla kun paljastaa taustalla olevat soluarvot, kaavat ja metatiedot ohjelmallisesti.

Keskeiset ominaisuudet

  • Täydellinen taulukon poisto – rivejä, sarakkeita, yhdistettyjä soluja ja tyylejä kerätään.
  • Resurssien hallinta – kuvat ja media voidaan koodata base64‑muotoon tai tallentaa erillisinä tiedostoina, joihin viitataan JSONissa.
  • Mukautettava lähtö – voit valita tiiviin litteän rakenteen tai hierarkkisen työkirjamallin.

Muunnosprosessi (HTML → JSON)

  1. Luo muunnin – instansoi HtmlConverter.
  2. Määritä latausasetukset – osoita lähde‑HTML‑tiedosto ja määritä mahdollisesti perus‑URI linkitettyjä resursseja varten.
  3. Määritä tallennusasetukset – käytä HtmlSaveOptions‑luokkaa valitaksesi JSON‑skeeman, upottaaksesi resurssit ja asettaaksesi kohdetiedoston.
  4. Suorita prosessi – kutsu HtmlConverter.Process(loadOptions, saveOptions).

Koodiesimerkki – HTML → JSON upotetuilla kuvilla

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

Miltä JSON näyttää (yksinkertaistettu)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Edistyneet vinkit

  • Valikoiva poisto – aseta HtmlLoadOptions.IncludeElements = new[] { "table", "img" } jättääksesi muut merkinnät huomiotta.
  • Suorituskyky – suurille HTML‑tiedostoille ota käyttöön ParallelProcessing = true JsonSaveOptions‑asetuksissa.
  • Mukautettu sarjoitus – toteuta IJsonConverter muuntaaksesi soluarvot (esim. päivämäärät ISO‑8601‑muotoon).

Laajennettu formaattituki

HTML‑muunnin kykenee kohdistamaan myös MHTML, CSV, EPUB, AZW3 – ja jopa takaisin XLSX‑muotoon. Tämä tekee siitä universaalin sillan datan vaihdolle web‑, e‑kirja‑ ja taulukkoekosysteemeissä.

Näillä askelilla voit luotettavasti muuntaa minkä tahansa HTML‑raportin puhtaaksi, käytettäväksi JSON‑muodossa Sheetize‑HtmlConverterin avulla.

 Suomi