Как преобразовать Html в Csv

Руководство по конвертации HTML в CSV

Обзор
Преобразование HTML‑таблиц или структурированного разметки в CSV‑файлы позволяет извлекать табличные данные для анализа, импорта в электронные таблицы или передачи в downstream‑системы. Sheetize HTML Converter для .NET поддерживает прямое превращение HTML (или MHTML) в CSV, сохраняя значения ячеек, типы данных и базовое форматирование.

Поддерживаемые форматы

  • Вход: Html или MHtml (любой HTML‑документ, содержащий элементы <table>).
  • Выход: Csv (значения, разделённые запятыми). Другие доступные форматы‑назначения: Xlsx, Json, Xml, Tsv и др.

Пошаговый процесс

  1. Создание параметров загрузки – Укажите конвертеру путь к исходному HTML‑файлу.
  2. Настройка параметров сохранения – Задайте SaveFormat как FileFormatType.Csv и, при необходимости, укажите разделитель, кодировку или необходимость включать строку заголовков.
  3. Запуск процесса – Вызовите HtmlConverter.Process(loadOptions, saveOptions); инструмент разбирает таблицы HTML и записывает CSV‑файл.

Пример кода (C#)

using Sheetize;

// Загрузка HTML‑документа
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // Html или MHtml исходный файл
};

// Настройки вывода CSV
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Выполнение конвертации
HtmlConverter.Process(loadOptions, saveOptions);

Советы и рекомендации

  • Структура таблицы – Убедитесь, что каждый <table> содержит строку <thead> с заголовками колонок; в противном случае конвертер воспримет первую строку как обычные данные.
  • Поддержка MHTML – Если исходник — архив MHtml, укажите путь к файлу .mht; конвертер автоматически извлечёт вложенный HTML.

Когда использовать HTML → CSV

  • Сбор веб‑страничных отчётов, представленных в виде HTML‑таблиц.
  • Преобразование содержимого электронных книг (ePub, AZW3), содержащих табличные данные, в CSV для аналитики.
  • Архивирование устаревших HTML‑дашбордов в лёгкий формат, готовый к импорту.

Дополнительные материалы

 Русский