Cách chuyển đổi HTML sang JSON
Sheetize HtmlConverter for .NET giúp bạn dễ dàng phân tích một tệp HTML và tạo ra một biểu diễn JSON có cấu trúc của dữ liệu bảng tính chứa trong đó. Bộ chuyển đổi xử lý các kiểu inline, hình ảnh nhúng và các bảng phức tạp, tạo ra JSON sạch sẽ có thể được tiêu thụ bởi các API web, pipeline dữ liệu, hay các ứng dụng front‑end.
Tại sao cần chuyển đổi HTML → JSON?
- JSON không phụ thuộc vào ngôn ngữ và là định dạng lý tưởng để truyền dữ liệu dạng bảng qua HTTP.
- Cho phép bạn tái sử dụng các báo cáo dựa trên HTML làm nguồn dữ liệu cho dashboard, mô hình học máy, hay ứng dụng di động.
- Giữ nguyên bố cục trực quan trong HTML đồng thời phô bày các giá trị ô, công thức và siêu dữ liệu dưới dạng có thể lập trình được.
Các tính năng chính
- Trích xuất bảng đầy đủ – các hàng, cột, ô hợp nhất và kiểu đều được ghi lại.
- Xử lý tài nguyên – hình ảnh và media có thể được mã hoá base64 hoặc lưu dưới dạng tệp riêng và tham chiếu trong JSON.
- Đầu ra tùy chỉnh – lựa chọn giữa cấu trúc phẳng gọn nhẹ hoặc mô hình sổ làm việc theo phân cấp.
Quy trình chuyển đổi (HTML → JSON)
- Tạo Converter – khởi tạo
HtmlConverter. - Cấu hình Load Options – chỉ định tệp HTML nguồn và tùy chọn định nghĩa URI cơ sở cho các tài nguyên liên kết.
- Cấu hình Save Options – dùng
HtmlSaveOptionsđể chọn schema JSON, nhúng tài nguyên và thiết lập đường xuất. - Thực thi – gọi
HtmlConverter.Process(loadOptions, saveOptions).
Ví dụ mã – HTML sang JSON với hình ảnh nhúng
using Sheetize;
var loadOptions = new LoadOptions
{
InputFile = @"C:\Docs\Report.html"
};
var saveOptions = new HtmlSaveOptions
{
OutputFile = @"C:\Output\Report.json"
};
HtmlConverter.Process(loadOptions, saveOptions);JSON mẫu (đơn giản hoá)
{
"sheets": [{
"name": "Sheet1",
"rows": [{
"cells": [{
"address": "A1",
"value": "Title",
"style": { "fontWeight": "bold" }
}, {
"address": "B1",
"value": "Image",
"image": "..."
}]
}]
}]
}Mẹo nâng cao
- Trích xuất có chọn lọc – đặt
HtmlLoadOptions.IncludeElements = new[] { "table", "img" }để bỏ qua các markup không liên quan. - Hiệu năng – với các tệp HTML lớn, bật
ParallelProcessing = truetrongJsonSaveOptions. - Tuỳ biến Serialization – triển khai
IJsonConverterđể biến đổi giá trị ô (ví dụ: chuyển ngày sang định dạng ISO‑8601).
Hỗ trợ định dạng mở rộng
Ngoài JSON, cùng một HtmlConverter còn có thể xuất ra MHTML, CSV, EPUB, AZW3, và thậm chí quay lại XLSX. Điều này biến nó thành một cầu nối đa năng cho việc trao đổi dữ liệu giữa web, e‑book và hệ sinh thái bảng tính.
Với các bước trên, bạn có thể chuyển đổi bất kỳ báo cáo HTML nào thành JSON sạch sẽ, sẵn sàng sử dụng thông qua Sheetize HtmlConverter.