Как да конвертираме Html в Csv

Ръководство за конвертиране от HTML към CSV

Общ преглед
Конвертирането на HTML таблици или структуриран маркъп в CSV файлове позволява извличане на таблични данни за анализ, импортиране в електронни таблици или предаване към следващи системи. Sheetize HTML Converter за .NET поддържа директна трансформация от HTML (или MHTML) към CSV, като запазва стойностите в клетките, типове данни и базово форматиране.

Поддържани формати

  • Вход: Html или MHtml (всеки HTML документ, съдържащ <table> елементи).
  • Изход: Csv (стойности, разделени със запетая). Други поддържани формати включват Xlsx, Json, Xml, Tsv и др.

Стъпка‑по‑стъпка работен процес

  1. Създаване на Load Options – Посочете конвертора към изходния HTML файл.
  2. Конфигуриране на Save Options – Задайте SaveFormat на FileFormatType.Csv и по желание определете разделител, кодиране или дали да се включат заглавните редове.
  3. Изпълнение на процеса – Извикайте HtmlConverter.Process(loadOptions, saveOptions); инструментът парсира HTML таблиците и записва CSV файл.

Примерен код (C#)

using Sheetize;

// Зареждане на HTML документа
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // Html или MHtml източник
};

// Дефиниране на настройки за CSV изход
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Изпълнение на конверсията
HtmlConverter.Process(loadOptions, saveOptions);

Съвети и най‑добри практики

  • Структура на таблицата – Уверете се, че всеки <table> има <thead> за заглавия на колоните; иначе конверторът ще третира първия ред като данни.
  • Поддръжка на MHTML – Ако източникът е MHtml архив, посочете пътя към .mht файла; конверторът автоматично извлича вграденото HTML.

Кога да използваме HTML → CSV

  • Скрапинг на уеб‑страници с отчети, доставяни като HTML таблици.
  • Конвертиране на съдържание от електронни книги (ePub, AZW3), съдържащи таблични данни, в CSV за аналитика.
  • Архивиране на наследени HTML табла към лек, готов за импортиране формат.

Допълнителни ресурси

 Български