Как преобразовать Html в Csv
Руководство по конвертации HTML в CSV
Обзор
Преобразование HTML‑таблиц или структурированного разметки в CSV‑файлы позволяет извлекать табличные данные для анализа, импорта в электронные таблицы или передачи в downstream‑системы. Sheetize HTML Converter для .NET поддерживает прямое превращение HTML (или MHTML) в CSV, сохраняя значения ячеек, типы данных и базовое форматирование.
Поддерживаемые форматы
- Вход:
HtmlилиMHtml(любой HTML‑документ, содержащий элементы<table>). - Выход:
Csv(значения, разделённые запятыми). Другие доступные форматы‑назначения:Xlsx,Json,Xml,Tsvи др.
Пошаговый процесс
- Создание параметров загрузки – Укажите конвертеру путь к исходному HTML‑файлу.
- Настройка параметров сохранения – Задайте
SaveFormatкакFileFormatType.Csvи, при необходимости, укажите разделитель, кодировку или необходимость включать строку заголовков. - Запуск процесса – Вызовите
HtmlConverter.Process(loadOptions, saveOptions); инструмент разбирает таблицы HTML и записывает CSV‑файл.
Пример кода (C#)
using Sheetize;
// Загрузка HTML‑документа
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // Html или MHtml исходный файл
};
// Настройки вывода CSV
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// Выполнение конвертации
HtmlConverter.Process(loadOptions, saveOptions);Советы и рекомендации
- Структура таблицы – Убедитесь, что каждый
<table>содержит строку<thead>с заголовками колонок; в противном случае конвертер воспримет первую строку как обычные данные. - Поддержка MHTML – Если исходник — архив
MHtml, укажите путь к файлу.mht; конвертер автоматически извлечёт вложенный HTML.
Когда использовать HTML → CSV
- Сбор веб‑страничных отчётов, представленных в виде HTML‑таблиц.
- Преобразование содержимого электронных книг (ePub, AZW3), содержащих табличные данные, в CSV для аналитики.
- Архивирование устаревших HTML‑дашбордов в лёгкий формат, готовый к импорту.