Οδηγός Μετατροπής HTML σε CSV
Επισκόπηση
Η μετατροπή πινάκων HTML ή δομημένου markup σε αρχεία CSV σάς επιτρέπει να εξάγετε δεδομένα πινάκων για ανάλυση, εισαγωγή σε υπολογιστικά φύλλα ή τροφοδοσία συστημάτων downstream. Ο Sheetize HTML Converter για .NET υποστηρίζει άμεση μετατροπή από HTML (ή MHTML) σε CSV, διατηρώντας τις τιμές των κελιών, τους τύπους δεδομένων και τη βασική μορφοποίηση.
Υποστηριζόμενες Μορφές
- Είσοδος:
HtmlήMHtml(οποιοδήποτε έγγραφο HTML που περιέχει στοιχεία<table>). - Έξοδος:
Csv(τιμές διαχωρισμένες με κόμμα). Άλλοι προορισμοί περιλαμβάνουνXlsx,Json,Xml,Tsvκ.λπ.
Βήμα‑Βήμα Ροή Εργασίας
- Δημιουργία Load Options – Καθορίστε το αρχείο πηγής HTML στον μετατροπέα.
- Διαμόρφωση Save Options – Ορίστε το
SaveFormatσεFileFormatType.Csvκαι προαιρετικά καθορίστε διαχωριστικό, κωδικοποίηση ή εάν θα συμπεριληφθούν γραμμές κεφαλίδας. - Εκτέλεση Διαδικασίας – Καλείστε το
HtmlConverter.Process(loadOptions, saveOptions)· το εργαλείο αναλύει τους πίνακες HTML και γράφει ένα αρχείο CSV.
Παράδειγμα Κώδικα (C#)
using Sheetize;
// Φόρτωση του εγγράφου HTML
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // Πηγή Html ή MHtml
};
// Ορισμός ρυθμίσεων εξόδου CSV
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// Εκτέλεση της μετατροπής
HtmlConverter.Process(loadOptions, saveOptions);Συμβουλές & Καλές Πρακτικές
- Δομή Πίνακα – Βεβαιωθείτε ότι κάθε
<table>έχει ένα<thead>για τις στήλες κεφαλίδας· διαφορετικά ο μετατροπέας θα θεωρήσει την πρώτη γραμμή ως δεδομένα. - Υποστήριξη MHTML – Εάν η πηγή είναι αρχείο
MHtml, παρέχετε τη διαδρομή του.mht· ο μετατροπέας εξάγει αυτόματα το ενσωματωμένο HTML.
Πότε να Χρησιμοποιήσετε HTML → CSV
- Κατά τη συλλογή αναφορών από ιστοσελίδες που παρέχονται ως πίνακες HTML.
- Μετατροπή περιεχομένου e‑book (ePub, AZW3) που περιέχει πινάκες σε CSV για αναλύσεις.
- Αρχειοθέτηση παλαιού HTML dashboards σε ελαφρύ, έτοιμο για εισαγωγή φορμάτ.