Κυριακή 30 Ιουνίου 2019

Σώματα κειμένων

Τι είναι τα σώματα κειμένων;

Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων (συχνά ψηφιοποιημένων από έντυπη μορφή), το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη γλωσσολογική έρευνα και ανάλυση. Τα σώματα κειμένων είναι το αποτέλεσμα ειδικής ηλεκτρονικής επεξεργασίας με ειδικά προηγμένα λογισμικά, τα οποία δίνουν τη δυνατότητα στον χρήστη να αντλήσει φωνολογικές, γραμματικές, συντακτικές και υφολογικές πληροφορίες από το κείμενο, να κάνει παρατηρήσεις σχετικά με τη συχνότητα χρήσης ενός τύπου, το συμφραστικό περιβάλλον του, καθώς και πληροφορίες για την πρώτη εμφάνιση ή σημασία ενός τύπου και τις τυχόν αλλαγές του.

Σώματα κειμένων Νέας Ελληνικής Γλώσσας

1. Σώμα Κειμένων του Κέντρου Ελληνικής Γλώσσας (ΚΕΓ)  

Πρόκειται για τρία, ελεύθερα στην πρόσβαση, σώματα κειμένων με υλικό δημοσιογραφικού λόγου (εφημερίδες «Μακεδονία» και «Τα Νέα») και εκπαιδευτικού λόγου από τα σχολικά εγχειρίδια του Γυμνασίου και του Λυκείου (συνολικά 7.000.000 λεκτικοί τύποι). Το υλικό είναι ομαδοποιημένο με βάση το αντικείμενο του άρθρου (π.χ. Αθλητικά) και η αναζήτηση λημμάτων μπορεί να γίνει είτε στο ένα μόνο είτε παράλληλα και στα τρία σώματα κειμένων. Τα αποτελέσματα εμφανίζονται, ανάλογα με τις επιλογές του χρήστη, σε επίπεδο πρότασης, παραγράφου ή ολόκληρου του άρθρου στο οποίο εμφανίζεται η λέξη. Επιπλέον, είναι δυνατή η σύνθετη αναζήτηση, ανά σώμα, βάσει της θεματικής ενότητας / διδακτικού αντικειμένου ή του κειμενικού είδους.

2. Σώμα ελληνικών κειμένων – Πανεπιστήμιο Αθηνών & Πανεπιστήμιο Κύπρου 

Πρόκειται για Σώμα Κειμένων με μεγάλο αριθμό λημμάτων που προέρχεται από αποδελτίωση γραπτού και προφορικού λόγου από διάφορα κειμενικά είδη. Πλεονεκτήματά του αποτελούν η ύπαρξη διαλεκτικών τύπων από την κυπριακή διάλεκτο, η μεγάλη ποικιλία στα κειμενικά είδη που παρέχει, η ύπαρξη λημμάτων από τον προφορικό λόγο και η ελεύθερη πρόσβασή του (μετά από εγγραφή με τη χρήση email). Δίνονται ποικίλες επιλογές αναζήτησης όπως, για παράδειγμα, βάσει κειμενικού είδους ή γεωγραφικής ποικιλίας, ωστόσο τα αποτελέσματα αφορούν μόνο τη λέξη όπως τη δίνει ο χρήστης και όχι όλους τους λημματικούς της τύπους. 
Σημείωση: Τη στιγμή  της συγγραφής αυτού του οδηγού η πρόσβαση στο Σώμα ελληνικών κειμένων δεν ήταν δυνατή. Ας ελπίσουμε ότι πρόκειται για προσωρινό φαινόμενο...

3. Εθνικός Θησαυρός Ελληνικής Γλώσσας – Ινστιτούτο Επεξεργασίας Λόγου 

Αποτελεί το μεγαλύτερο σε όγκο σώμα κειμένων για την ελληνική γλώσσα (περισσότερες από 47.000.000 λέξεις) και διαθέτει τη μεγαλύτερη αντιπροσωπευτικότητα σε κείμενα. Ο χρήστης έχει τη δυνατότητα να αναζητήσει λήμματα χρησιμοποιώντας από ένα μέχρι τρία κριτήρια (λέξη, λήμμα ή γραμματικός προσδιορισμός) και να καθορίσει το υποσύνολο κειμένων στο οποίο θα περιοριστεί η αναζήτηση. Τα αποτελέσματα αφορούν μόνο τη λέξη όπως τη δίνει ο χρήστης και όχι όλους τους λημματικούς της τύπους. Επιπλέον, η δωρεάν πρόσβαση στους απλούς επισκέπτες είναι περιορισμένη.


4. Διαχρονικό σώμα ελληνικών κειμένων του 20ου αιώνα  - ΕΚΠΑ  

Σε αυτό το Σώμα Κειμένων περιλαμβάνονται δεδομένα από τις εννέα πρώτες δεκαετίες του εικοστού αιώνα (1900-1989). Τα αποτελέσματα της αναζήτησης μπορούν να ταξινομηθούν σύμφωνα με την προηγούμενη ή επόμενη λέξη, το κειμενικό είδος και τη χρονολογία του κειμένου. Επιπλέον, εμφανίζονται στατιστικά στοιχεία που αφορούν τη συχνότητα εμφάνισης της λέξης ανά δεκαετία. Τα αποτελέσματα αφορούν μόνο τη λέξη όπως τη δίνει ο χρήστης και όχι όλους τους λημματικούς της τύπους, ενώ στην αναζήτηση δεν παίζει ρόλο η τοποθέτηση των τονικών σημείων.
Σημείωση: Τη στιγμή  της συγγραφής αυτού του οδηγού η πρόσβαση στο Σώμα ελληνικών κειμένων δεν ήταν δυνατή. Ας ελπίσουμε ότι πρόκειται για προσωρινό φαινόμενο...

5. Corpus Προφορικού λόγου – Ινστιτούτο Νεοελληνικών Σπουδών  

Στο Σώμα Κειμένων Προφορικού λόγου το υλικό προέρχεται από φυσικές περιστάσεις επικοινωνίας, με διαφορετικό βαθμό θεσμικότητας και διαφορετικά είδη λόγου. Στην ιστοσελίδα είναι διαθέσιμο μόνο τμήμα του Corpus και συγκεκριμένα 40 καθημερινές συνομιλίες, 140 τηλεφωνικές συνδιαλέξεις και 8 τηλεοπτικές συνεντεύξεις. Καθώς το υλικό αποτελείται από απομαγνητοφωνημένα κείμενα προφορικού λόγου, τα κείμενα αυτά δεν αποδίδονται με τη συνήθη ορθογραφική αναπαράσταση αλλά με ένα πλήθος συμβόλων που αποδίδουν τα χαρακτηριστικά του λόγου (π.χ. παύσεις, επικαλύψεις κ.ά.). Η πρόσβαση είναι εφικτή μετά από δωρεάν εγγραφή του χρήστη.  

Ξενόγλωσσα σώματα κειμένων 

Σώματα κειμένων μπορούν να εντοπιστούν στο διαδίκτυο και για ποικίλες άλλες γλώσσες. Παρακάτω δίνεται μια ενδεικτική λίστα με σώματα κειμένων για τις γλώσσες που διδάσκονται στο σχολείο:

Αγγλικά

Γαλλικά 

Γερμανικά 

Διδακτική αξιοποίηση των Σωμάτων Κειμένων  

Τα σώματα κειμένων προσφέρουν δυνατότητες αξιοποίησης προς ποικίλες κατευθύνσεις. Σε μια πρώτη εκδοχή, δηλαδή την αξιοποίηση ως ένα παιδαγωγικό μέσο στα πλαίσια περισσότερο παραδοσιακών διδακτικών προσεγγίσεων, ο εκπαιδευτικός μπορεί να αξιοποιεί τα περιβάλλοντα αυτά ώστε να αντλήσει αυθεντικό υλικό, με στόχο να αναδείξει οποιοδήποτε γλωσσικό φαινόμενο. Για παράδειγμα, μπορεί να προβάλλει τα αποτελέσματα από τα σώματα κειμένων, όταν υπάρχει κάποια άγνωστη λέξη, ώστε να εντοπίζονται πολλαπλά πραγματικά παραδείγματα χρήσης της λέξης αυτής και, τελικά, η ανάδειξη της σημασίας της λέξης να γίνεται μέσα από τα παραδείγματα. Σε μια άλλη εκδοχή, πάλι ως παιδαγωγικό μέσο αλλά προς την κατεύθυνση περισσότερο καινοτόμων διδακτικών πρακτικών, ο εκπαιδευτικός μπορεί να σχεδιάσει μια ανακαλυπτική δραστηριότητα σχετική με την ανάδειξη των διαφορετικών κλιτικών τύπων μιας λέξης: οι μαθητές αναζητούν μια λέξη (π.χ. άγω), καλούνται να συλλέξουν τα γλωσσικά τους δεδομένα και να συντάξουν το κλιτικό παράδειγμα και τις εξαιρέσεις του με βάση όσα θα βρουν στο σώμα κειμένων (εξαγωγή του κανόνα και όχι απομνημόνευση). Τέλος, προς μια άλλη εκδοχή και μια περισσότερο κριτική κατεύθυνση, θα μπορούσαν να αναζητήσουν το ίδιο λήμμα και σε άλλα σώματα κειμένων ή ακόμη και στο Google, ώστε να δουν αν συναντώνται και άλλοι κλιτικοί τύποι ή ακόμη και ιδιωματισμοί, σε σύνδεση πάντα με το είδος κειμένου και την περίσταση που συναντάται η λέξη αυτή.  







Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου