Como converter HTML para JSON
Sheetize HtmlConverter para .NET facilita a análise de um arquivo HTML e a geração de uma representação JSON estruturada dos dados de planilha que ele contém. O conversor lida com estilos inline, imagens incorporadas e tabelas complexas, produzindo JSON limpo que pode ser consumido por APIs web, pipelines de dados ou aplicações front‑end.
Por que converter HTML → JSON?
- JSON é independente de linguagem e perfeito para transmitir dados tabulares via HTTP.
- Permite reutilizar relatórios baseados em HTML como fontes de dados para dashboards, modelos de machine‑learning ou apps móveis.
- Mantém o layout visual original no HTML enquanto expõe os valores das células, fórmulas e metadados de forma programática.
Conjunto principal de recursos
- Extração completa de tabelas – linhas, colunas, células mescladas e estilos são capturados.
- Manipulação de ativos – imagens e mídias podem ser codificadas em base64 ou armazenadas como arquivos externos referenciados no JSON.
- Saída personalizável – escolha entre uma estrutura compacta e plana ou um modelo hierárquico de pasta de trabalho.
Fluxo de conversão (HTML → JSON)
- Criar o conversor – instancie
HtmlConverter. - Definir opções de carregamento – indique o arquivo HTML de origem e, opcionalmente, a URI base para recursos vinculados.
- Configurar opções de salvamento – use
HtmlSaveOptionspara selecionar o esquema JSON, incorporar recursos e definir o caminho de saída. - Executar o processo – chame
HtmlConverter.Process(loadOptions, saveOptions).
Exemplo de código – HTML para JSON com imagens embutidas
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);Como o JSON fica (simplificado)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "..."
}]
}]
}]
}Dicas avançadas
- Extração seletiva – defina
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }para ignorar marcações não relacionadas. - Desempenho – para arquivos HTML grandes, habilite
ParallelProcessing = trueemJsonSaveOptions. - Serialização personalizada – implemente
IJsonConverterpara transformar valores de célula (por exemplo, datas para ISO‑8601).
Suporte expandido a formatos
Além de JSON, o mesmo HtmlConverter pode gerar MHTML, CSV, EPUB, AZW3 e até voltar para XLSX. Isso o torna uma ponte universal para troca de dados entre ecossistemas web, e‑book e planilha.
Com esses passos você pode transformar de forma confiável qualquer relatório HTML em JSON limpo e consumível usando o HtmlConverter da Sheetize.