如何将 Html 转为 Csv

HTML 转 CSV 转换指南

概述
将 HTML 表格或结构化标记转换为 CSV 文件,可将表格数据提取出来用于分析、导入电子表格或供下游系统使用。Sheetize HTML Converter for .NET 支持直接将 HTML(或 MHTML)转换为 CSV,并保留单元格值、数据类型及基本格式。

支持的格式

  • 输入HtmlMHtml(任何包含 <table> 元素的 HTML 文档)。
  • 输出Csv(逗号分隔值)。其他支持的目标格式还包括 XlsxJsonXmlTsv 等。

步骤工作流

  1. 创建加载选项 – 指定转换器要读取的源 HTML 文件。
  2. 配置保存选项 – 将 SaveFormat 设置为 FileFormatType.Csv,并可自行指定分隔符、编码或是否包含表头行。
  3. 执行转换 – 调用 HtmlConverter.Process(loadOptions, saveOptions);工具会解析 HTML 表格并写入 CSV 文件。

示例代码(C#)

using Sheetize;

// 加载 HTML 文档
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // Html 或 MHtml 源文件
};

// 定义 CSV 输出设置
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// 执行转换
HtmlConverter.Process(loadOptions, saveOptions);

提示 & 最佳实践

  • 表结构 – 确保每个 <table> 都有 <thead> 用于列标题;否则转换器会把第一行当作数据处理。
  • MHTML 支持 – 若源文件是 MHtml 包,提供 .mht 文件路径,转换器会自动提取其中嵌入的 HTML。

何时使用 HTML → CSV

  • 爬取以 HTML 表格形式提供的网页报告。
  • 将包含表格数据的电子书内容(ePub、AZW3)转换为 CSV,以便进行分析。
  • 将旧版 HTML 仪表盘归档为轻量、可直接导入的格式。

进一步阅读

 中文