如何将 Html 转为 Csv
HTML 转 CSV 转换指南
概述
将 HTML 表格或结构化标记转换为 CSV 文件,可将表格数据提取出来用于分析、导入电子表格或供下游系统使用。Sheetize HTML Converter for .NET 支持直接将 HTML(或 MHTML)转换为 CSV,并保留单元格值、数据类型及基本格式。
支持的格式
- 输入:
Html或MHtml(任何包含<table>元素的 HTML 文档)。 - 输出:
Csv(逗号分隔值)。其他支持的目标格式还包括Xlsx、Json、Xml、Tsv等。
步骤工作流
- 创建加载选项 – 指定转换器要读取的源 HTML 文件。
- 配置保存选项 – 将
SaveFormat设置为FileFormatType.Csv,并可自行指定分隔符、编码或是否包含表头行。 - 执行转换 – 调用
HtmlConverter.Process(loadOptions, saveOptions);工具会解析 HTML 表格并写入 CSV 文件。
示例代码(C#)
using Sheetize;
// 加载 HTML 文档
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // Html 或 MHtml 源文件
};
// 定义 CSV 输出设置
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// 执行转换
HtmlConverter.Process(loadOptions, saveOptions);提示 & 最佳实践
- 表结构 – 确保每个
<table>都有<thead>用于列标题;否则转换器会把第一行当作数据处理。 - MHTML 支持 – 若源文件是
MHtml包,提供.mht文件路径,转换器会自动提取其中嵌入的 HTML。
何时使用 HTML → CSV
- 爬取以 HTML 表格形式提供的网页报告。
- 将包含表格数据的电子书内容(ePub、AZW3)转换为 CSV,以便进行分析。
- 将旧版 HTML 仪表盘归档为轻量、可直接导入的格式。