كيفية تحويل HTML إلى CSV
دليل تحويل HTML إلى CSV
نظرة عامة
تحويل جداول HTML أو العلامات الهيكلية إلى ملفات CSV يتيح لك استخراج البيانات الجدولية للتحليل، أو استيرادها إلى جداول البيانات، أو تغذيتها إلى الأنظمة المت downstream. يدعم Sheetize HTML Converter لـ .NET التحويل المباشر من HTML (أو MHTML) إلى CSV مع الحفاظ على قيم الخلايا، وأنواع البيانات، وبعض التنسيقات الأساسية.
الصيغ المدعومة
- الإدخال:
HtmlأوMHtml(أي مستند HTML يحتوي على عناصر<table>). - الإخراج:
Csv(قيم مفصولة بفواصل). الوجهات الأخرى المدعومة تشملXlsx،Json،Xml،Tsv، إلخ.
سير العمل خطوة بخطوة
- إنشاء خيارات التحميل – حدد مسار ملف HTML المصدر.
- تكوين خيارات الحفظ – اضبط
SaveFormatإلىFileFormatType.Csvويمكنك تحديد الفاصل، الترميز، أو ما إذا كنت تريد تضمين صفوف العناوين. - تشغيل العملية – استدعِ
HtmlConverter.Process(loadOptions, saveOptions)؛ الأداة تحلل جداول HTML وتكتب ملف CSV.
عينة الكود (C#)
using Sheetize;
// تحميل مستند HTML
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // مصدر Html أو MHtml
};
// تعريف إعدادات خروج CSV
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// تنفيذ التحويل
HtmlConverter.Process(loadOptions, saveOptions);نصائح وممارسات أفضل
- هيكلة الجدول – تأكد من أن كل
<table>يحتوي على<thead>للعنوان العمودي؛ وإلا سيعامل المحول الصف الأول كبيانات. - دعم MHTML – إذا كان المصدر أرشيفًا
MHtml، قدّم مسار ملف.mht؛ المستند سيستخرج HTML المضمّن تلقائيًا.
متى تستخدم التحويل من HTML → CSV
- استخراج تقارير الصفحات الويب التي تُقدّم كجداول HTML.
- تحويل محتوى الكتب الإلكترونية (ePub، AZW3) التي تحتوي على بيانات جدولة إلى CSV للتحليلات.
- أرشفة لوحات معلومات HTML القديمة إلى صيغة خفيفة جاهزة للاستيراد.