Comment convertir HTML en JSON

Sheetize HtmlConverter pour .NET simplifie l’analyse d’un fichier HTML et la génération d’une représentation JSON structurée des données de tableau qu’il contient. Le convertisseur gère les styles en ligne, les images intégrées et les tableaux complexes, produisant un JSON propre qui peut être exploité par des API web, des pipelines de données ou des applications front‑end.

Pourquoi convertir HTML → JSON ?

  • JSON est indépendant du langage et idéal pour transmettre des données tabulaires via HTTP.
  • Il vous permet de réutiliser des rapports basés sur HTML comme sources de données pour des tableaux de bord, des modèles d’apprentissage automatique ou des applications mobiles.
  • Il conserve la mise en page visuelle d’origine dans le HTML tout en exposant les valeurs des cellules, les formules et les métadonnées de façon programmable.

Principales fonctionnalités

  • Extraction complète des tableaux – lignes, colonnes, cellules fusionnées et styles sont capturés.
  • Gestion des ressources – les images et médias sont soit encodés en base64, soit stockés comme fichiers séparés référencés dans le JSON.
  • Sortie personnalisable – choisissez entre une structure plate compacte ou un modèle hiérarchique de classeur.

Flux de conversion (HTML → JSON)

  1. Créer le convertisseur – instanciez HtmlConverter.
  2. Définir les options de chargement – indiquez le fichier HTML source et, éventuellement, l’URI de base pour les ressources liées.
  3. Configurer les options d’enregistrement – utilisez HtmlSaveOptions pour sélectionner le schéma JSON, intégrer les ressources et définir le chemin de sortie.
  4. Exécuter le processus – appelez HtmlConverter.Process(loadOptions, saveOptions).

Exemple de code – HTML vers JSON avec images intégrées

using Sheetize;

var loadOptions = new LoadOptions
{
    InputFile = @"C:\Docs\Report.html"
};

var saveOptions = new HtmlSaveOptions
{
    OutputFile = @"C:\Output\Report.json"
};

HtmlConverter.Process(loadOptions, saveOptions);

À quoi ressemble le JSON (simplifié)

{
  "sheets": [{
    "name": "Sheet1",
    "rows": [{
      "cells": [{
        "address": "A1",
        "value": "Title",
        "style": { "fontWeight": "bold" }
      }, {
        "address": "B1",
        "value": "Image",
        "image": "..."
      }]
    }]
  }]
}

Astuces avancées

  • Extraction sélective – définissez HtmlLoadOptions.IncludeElements = new[] { "table", "img" } pour ignorer les balises non pertinentes.
  • Performance – pour les gros fichiers HTML, activez ParallelProcessing = true dans JsonSaveOptions.
  • Sérialisation personnalisée – implémentez IJsonConverter pour transformer les valeurs des cellules (par ex. dates au format ISO‑8601).

Support étendu des formats

En plus du JSON, le même HtmlConverter peut cibler MHTML, CSV, EPUB, AZW3, et même revenir à XLSX. Cela en fait un pont universel pour l’échange de données entre les écosystèmes web, e‑book et tableur.

Avec ces étapes, vous pouvez convertir de façon fiable n’importe quel rapport HTML en JSON propre et exploitable grâce à HtmlConverter de Sheetize.

 Français