نحوه تبدیل Html به Csv
راهنمای تبدیل HTML به CSV
بررسی کلی
تبدیل جداول HTML یا مارکآپ ساختار یافته به فایلهای CSV به شما امکان میدهد دادههای جدولی را برای آنالیز، وارد کردن به صفحات گسترده یا تغذیه سیستمهای downstream استخراج کنید. Sheetize HTML Converter برای .NET تبدیل مستقیم از HTML (یا MHTML) به CSV را همراه با حفظ مقادیر سلولها، انواع داده و قالببندی پایه پشتیبانی میکند.
فرمتهای پشتیبانیشده
- ورودی:
HtmlیاMHtml(هر سند HTML حاوی عناصر<table>). - خروجی:
Csv(مقادیر جدا شده با کاما). مقاصد دیگر شاملXlsx،Json،Xml،Tsvو … نیز پشتیبانی میشوند.
روند گام به گام
- ایجاد Load Options – مبدل را به فایل HTML منبع اشاره دهید.
- پیکربندی Save Options –
SaveFormatرا بهFileFormatType.Csvتنظیم کنید و بهصورت دلخواه جداکننده، رمزگذاری یا شامل بودن سطرهای سرعنوان را مشخص کنید. - اجرای فرایند – متد
HtmlConverter.Process(loadOptions, saveOptions)را فراخوانی کنید؛ ابزار جداول HTML را تجزیه کرده و فایل CSV را مینویسد.
نمونه کد (C#)
using Sheetize;
// بارگزاری سند HTML
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // منبع Html یا MHtml
};
// تنظیمات خروجی CSV
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// انجام تبدیل
HtmlConverter.Process(loadOptions, saveOptions);نکات و بهترین روشها
- ساختار جدول – اطمینان حاصل کنید که هر
<table>دارای<thead>برای سرستونها باشد؛ در غیر این صورت مبدل اولین ردیف را به عنوان داده در نظر میگیرد. - پشتیبانی از MHTML – اگر منبع یک آرشیو
MHtmlاست، مسیر فایل.mhtرا ارائه دهید؛ مبدل بهصورت خودکار HTML تعبیهشده را استخراج میکند.
مواقعی که استفاده از HTML → CSV مناسب است
- استخراج گزارشهای صفحه وب که به صورت جداول HTML ارائه میشوند.
- تبدیل محتوای کتابهای الکترونیکی (ePub، AZW3) حاوی دادههای جدولی به CSV برای تجزیه و تحلیل.
- بایگانی نمودارهای داشبورد HTML قدیمی به فرمت سبک و آماده وارد کردن.