نحوه تبدیل Html به Csv

راهنمای تبدیل HTML به CSV

بررسی کلی
تبدیل جداول HTML یا مارک‌آپ ساختار یافته به فایل‌های CSV به شما امکان می‌دهد داده‌های جدولی را برای آنالیز، وارد کردن به صفحات گسترده یا تغذیه سیستم‌های downstream استخراج کنید. Sheetize HTML Converter برای .NET تبدیل مستقیم از HTML (یا MHTML) به CSV را همراه با حفظ مقادیر سلول‌ها، انواع داده و قالب‌بندی پایه پشتیبانی می‌کند.

فرمت‌های پشتیبانی‌شده

  • ورودی: Html یا MHtml (هر سند HTML حاوی عناصر <table>).
  • خروجی: Csv (مقادیر جدا شده با کاما). مقاصد دیگر شامل Xlsx، Json، Xml، Tsv و … نیز پشتیبانی می‌شوند.

روند گام به گام

  1. ایجاد Load Options – مبدل را به فایل HTML منبع اشاره دهید.
  2. پیکربندی Save OptionsSaveFormat را به FileFormatType.Csv تنظیم کنید و به‌صورت دلخواه جداکننده، رمزگذاری یا شامل بودن سطرهای سرعنوان را مشخص کنید.
  3. اجرای فرایند – متد HtmlConverter.Process(loadOptions, saveOptions) را فراخوانی کنید؛ ابزار جداول HTML را تجزیه کرده و فایل CSV را می‌نویسد.

نمونه کد (C#)

using Sheetize;

// بارگزاری سند HTML
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // منبع Html یا MHtml
};

// تنظیمات خروجی CSV
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// انجام تبدیل
HtmlConverter.Process(loadOptions, saveOptions);

نکات و بهترین روش‌ها

  • ساختار جدول – اطمینان حاصل کنید که هر <table> دارای <thead> برای سرستون‌ها باشد؛ در غیر این صورت مبدل اولین ردیف را به عنوان داده در نظر می‌گیرد.
  • پشتیبانی از MHTML – اگر منبع یک آرشیو MHtml است، مسیر فایل .mht را ارائه دهید؛ مبدل به‌صورت خودکار HTML تعبیه‌شده را استخراج می‌کند.

مواقعی که استفاده از HTML → CSV مناسب است

  • استخراج گزارش‌های صفحه وب که به صورت جداول HTML ارائه می‌شوند.
  • تبدیل محتوای کتاب‌های الکترونیکی (ePub، AZW3) حاوی داده‌های جدولی به CSV برای تجزیه و تحلیل.
  • بایگانی نمودارهای داشبورد HTML قدیمی به فرمت سبک و آماده وارد کردن.

مطالعات بیشتر

 فارسی