Comment convertir HTML en JSON
Sheetize HtmlConverter pour .NET simplifie l’analyse d’un fichier HTML et la génération d’une représentation JSON structurée des données de tableau qu’il contient. Le convertisseur gère les styles en ligne, les images intégrées et les tableaux complexes, produisant un JSON propre qui peut être exploité par des API web, des pipelines de données ou des applications front‑end.
Pourquoi convertir HTML → JSON ?
- JSON est indépendant du langage et idéal pour transmettre des données tabulaires via HTTP.
- Il vous permet de réutiliser des rapports basés sur HTML comme sources de données pour des tableaux de bord, des modèles d’apprentissage automatique ou des applications mobiles.
- Il conserve la mise en page visuelle d’origine dans le HTML tout en exposant les valeurs des cellules, les formules et les métadonnées de façon programmable.
Principales fonctionnalités
- Extraction complète des tableaux – lignes, colonnes, cellules fusionnées et styles sont capturés.
- Gestion des ressources – les images et médias sont soit encodés en base64, soit stockés comme fichiers séparés référencés dans le JSON.
- Sortie personnalisable – choisissez entre une structure plate compacte ou un modèle hiérarchique de classeur.
Flux de conversion (HTML → JSON)
- Créer le convertisseur – instanciez
HtmlConverter. - Définir les options de chargement – indiquez le fichier HTML source et, éventuellement, l’URI de base pour les ressources liées.
- Configurer les options d’enregistrement – utilisez
HtmlSaveOptionspour sélectionner le schéma JSON, intégrer les ressources et définir le chemin de sortie. - Exécuter le processus – appelez
HtmlConverter.Process(loadOptions, saveOptions).
Exemple de code – HTML vers JSON avec images intégrées
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);À quoi ressemble le JSON (simplifié)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "data:image/png;base64,iVBORw0KG..."
}]
}]
}]
}Astuces avancées
- Extraction sélective – définissez
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }pour ignorer les balises non pertinentes. - Performance – pour les gros fichiers HTML, activez
ParallelProcessing = truedansJsonSaveOptions. - Sérialisation personnalisée – implémentez
IJsonConverterpour transformer les valeurs des cellules (par ex. dates au format ISO‑8601).
Support étendu des formats
En plus du JSON, le même HtmlConverter peut cibler MHTML, CSV, EPUB, AZW3, et même revenir à XLSX. Cela en fait un pont universel pour l’échange de données entre les écosystèmes web, e‑book et tableur.
Avec ces étapes, vous pouvez convertir de façon fiable n’importe quel rapport HTML en JSON propre et exploitable grâce à HtmlConverter de Sheetize.