كيفية تحويل HTML إلى CSV

دليل تحويل HTML إلى CSV

نظرة عامة
تحويل جداول HTML أو العلامات الهيكلية إلى ملفات CSV يتيح لك استخراج البيانات الجدولية للتحليل، أو استيرادها إلى جداول البيانات، أو تغذيتها إلى الأنظمة المت downstream. يدعم Sheetize HTML Converter لـ .NET التحويل المباشر من HTML (أو MHTML) إلى CSV مع الحفاظ على قيم الخلايا، وأنواع البيانات، وبعض التنسيقات الأساسية.

الصيغ المدعومة

  • الإدخال: Html أو MHtml (أي مستند HTML يحتوي على عناصر <table>).
  • الإخراج: Csv (قيم مفصولة بفواصل). الوجهات الأخرى المدعومة تشمل Xlsx، Json، Xml، Tsv، إلخ.

سير العمل خطوة بخطوة

  1. إنشاء خيارات التحميل – حدد مسار ملف HTML المصدر.
  2. تكوين خيارات الحفظ – اضبط SaveFormat إلى FileFormatType.Csv ويمكنك تحديد الفاصل، الترميز، أو ما إذا كنت تريد تضمين صفوف العناوين.
  3. تشغيل العملية – استدعِ HtmlConverter.Process(loadOptions, saveOptions)؛ الأداة تحلل جداول HTML وتكتب ملف CSV.

عينة الكود (C#)

using Sheetize;

// تحميل مستند HTML
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // مصدر Html أو MHtml
};

// تعريف إعدادات خروج CSV
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// تنفيذ التحويل
HtmlConverter.Process(loadOptions, saveOptions);

نصائح وممارسات أفضل

  • هيكلة الجدول – تأكد من أن كل <table> يحتوي على <thead> للعنوان العمودي؛ وإلا سيعامل المحول الصف الأول كبيانات.
  • دعم MHTML – إذا كان المصدر أرشيفًا MHtml، قدّم مسار ملف .mht؛ المستند سيستخرج HTML المضمّن تلقائيًا.

متى تستخدم التحويل من HTML → CSV

  • استخراج تقارير الصفحات الويب التي تُقدّم كجداول HTML.
  • تحويل محتوى الكتب الإلكترونية (ePub، AZW3) التي تحتوي على بيانات جدولة إلى CSV للتحليلات.
  • أرشفة لوحات معلومات HTML القديمة إلى صيغة خفيفة جاهزة للاستيراد.

قراءة إضافية

 عربي