Как да конвертираме Html в Csv
Ръководство за конвертиране от HTML към CSV
Общ преглед
Конвертирането на HTML таблици или структуриран маркъп в CSV файлове позволява извличане на таблични данни за анализ, импортиране в електронни таблици или предаване към следващи системи. Sheetize HTML Converter за .NET поддържа директна трансформация от HTML (или MHTML) към CSV, като запазва стойностите в клетките, типове данни и базово форматиране.
Поддържани формати
- Вход:
HtmlилиMHtml(всеки HTML документ, съдържащ<table>елементи). - Изход:
Csv(стойности, разделени със запетая). Други поддържани формати включватXlsx,Json,Xml,Tsvи др.
Стъпка‑по‑стъпка работен процес
- Създаване на Load Options – Посочете конвертора към изходния HTML файл.
- Конфигуриране на Save Options – Задайте
SaveFormatнаFileFormatType.Csvи по желание определете разделител, кодиране или дали да се включат заглавните редове. - Изпълнение на процеса – Извикайте
HtmlConverter.Process(loadOptions, saveOptions); инструментът парсира HTML таблиците и записва CSV файл.
Примерен код (C#)
using Sheetize;
// Зареждане на HTML документа
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // Html или MHtml източник
};
// Дефиниране на настройки за CSV изход
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// Изпълнение на конверсията
HtmlConverter.Process(loadOptions, saveOptions);Съвети и най‑добри практики
- Структура на таблицата – Уверете се, че всеки
<table>има<thead>за заглавия на колоните; иначе конверторът ще третира първия ред като данни. - Поддръжка на MHTML – Ако източникът е
MHtmlархив, посочете пътя към.mhtфайла; конверторът автоматично извлича вграденото HTML.
Кога да използваме HTML → CSV
- Скрапинг на уеб‑страници с отчети, доставяни като HTML таблици.
- Конвертиране на съдържание от електронни книги (ePub, AZW3), съдържащи таблични данни, в CSV за аналитика.
- Архивиране на наследени HTML табла към лек, готов за импортиране формат.