Cách chuyển đổi Html sang Csv

Hướng Dẫn Chuyển Đổi HTML → CSV

Tổng quan
Việc chuyển các bảng HTML hoặc markup có cấu trúc sang file CSV giúp bạn trích xuất dữ liệu dạng bảng để phân tích, nhập vào bảng tính, hoặc đưa vào các hệ thống downstream. Sheetize HTML Converter cho .NET hỗ trợ chuyển đổi trực tiếp từ HTML (hoặc MHTML) sang CSV đồng thời bảo tồn giá trị ô, kiểu dữ liệu và một số định dạng cơ bản.

Định Dạng Hỗ Trợ

  • Đầu vào: Html hoặc MHtml (bất kỳ tài liệu HTML nào chứa các thẻ <table>).
  • Đầu ra: Csv (giá trị ngăn cách bằng dấu phẩy). Các định dạng đích khác còn hỗ trợ gồm Xlsx, Json, Xml, Tsv, …

Quy Trình Từng Bước

  1. Tạo Load Options – Chỉ đường dẫn tới file HTML nguồn.
  2. Cấu hình Save Options – Đặt SaveFormat thành FileFormatType.Csv và tùy chọn định nghĩa dấu phân cách, mã hoá, hoặc có bao gồm hàng tiêu đề hay không.
  3. Thực thi – Gọi HtmlConverter.Process(loadOptions, saveOptions); công cụ sẽ phân tích các bảng HTML và ghi ra file CSV.

Mã mẫu (C#)

using Sheetize;

// Load the HTML document
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // Html hoặc MHtml source
};

// Define CSV output settings
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Perform the conversion
HtmlConverter.Process(loadOptions, saveOptions);

Mẹo & Thực Hành Tốt Nhất

  • Cấu trúc bảng – Đảm bảo mỗi <table> có một <thead> chứa tiêu đề cột; nếu không, trình chuyển đổi sẽ xem hàng đầu tiên là dữ liệu.
  • Hỗ trợ MHTML – Khi nguồn là tệp MHtml, cung cấp đường dẫn tới file .mht; trình chuyển đổi sẽ tự động trích xuất HTML nhúng bên trong.

Khi Nào Nên Sử Dụng HTML → CSV

  • Thu thập các báo cáo trên web được cung cấp dưới dạng bảng HTML.
  • Chuyển nội dung sách điện tử (ePub, AZW3) có chứa dữ liệu bảng sang CSV để phân tích.
  • Lưu trữ các dashboard HTML cũ vào định dạng nhẹ, sẵn sàng nhập khẩu.

Tài Liệu Tham Khảo Thêm

 Tiếng Việt