Κλιμάκωση της έρευνας στις κοινωνικές επιστήμες
Ένα νέο εργαλείο που βοηθά τους ερευνητές να μετατρέπουν ποιοτικά δεδομένα σε αριθμούς που μπορούν να αναλύσουν.
Ένα βασικό μέρος της δουλειάς μας στην OpenAI είναι να βοηθάμε τους επιστήμονες να κινούνται πιο γρήγορα και να λύνουν πιο δύσκολα προβλήματα. Σήμερα, η Ομάδα Οικονομικής Έρευνας μας παρουσιάζει το GABRIEL: μια εργαλειοθήκη ανοικτού κώδικα που χρησιμοποιεί GPT για να μετατρέπει μη δομημένα κείμενα και εικόνες σε ποσοτικές μετρήσεις. Έχει σχεδιαστεί για οικονομολόγους, κοινωνικούς επιστήμονες και επιστήμονες δεδομένων, ώστε να μελετούν ποιοτικά δεδομένα σε μεγάλη κλίμακα.
Τα ποιοτικά δεδομένα αφηγούνται τις πιο πλούσιες ιστορίες για τον κόσμο—όσα οι άνθρωποι λένε, γράφουν, διδάσκουν, συζητούν και βιώνουν. Καλύπτουν τα πάντα, από προγράμματα σπουδών και συνεντεύξεις μέχρι μέσα κοινωνικής δικτύωσης και φωτογραφίες. Ο όγκος τους είναι τεράστιος. Όμως η μετατροπή αυτού του τύπου δεδομένων σε αυστηρά τεκμήρια είναι εξαιρετικά χρονοβόρα. Συχνά δεν είναι καθόλου εφικτή. Σε πάρα πολλές περιπτώσεις, οι κοινωνικοί επιστήμονες αναγκάζονται να εγκαταλείψουν σημαντικές κατευθύνσεις έρευνας, όχι επειδή δεν υπάρχουν δεδομένα, αλλά επειδή είναι αδύνατο να αναλυθούν.
Το GABRIEL έχει δημιουργηθεί για να κάνει τα ποιοτικά δεδομένα πολύ πιο προσβάσιμα. Επιτρέπει στους ερευνητές να περιγράφουν αυτό που θέλουν να μετρήσουν με καθημερινές λέξεις—όπως «πόσο φιλική προς την οικογένεια είναι αυτή η αγγελία εργασίας;»—και στη συνέχεια εφαρμόζει την ίδια ερώτηση με συνέπεια σε χιλιάδες (ή εκατομμύρια) έγγραφα, επιστρέφοντας μια βαθμολογία για το καθένα. Έτσι, οι ερευνητές αφιερώνουν λιγότερο χρόνο σε επαναλαμβανόμενο χαρακτηρισμό δεδομένων και περισσότερο χρόνο στη δουλειά που πραγματικά απαιτεί εξειδίκευση: την επιλογή όσων θα μετρηθούν, την επικύρωση των αποτελεσμάτων και την εξαγωγή προσεκτικών συμπερασμάτων.
Για παράδειγμα, το GABRIEL μπορεί να αναλύσει μια μεγάλη συλλογή επιστημονικών άρθρων για να δει ποιες συγκεκριμένες μέθοδοι χρησιμοποιούνται και πώς εξελίσσονται με τον χρόνο. Μπορεί να εξετάσει προγράμματα μαθημάτων και να μετρήσει πόση έμφαση δίνεται σε διαφορετικά αντικείμενα ή δεξιότητες. Μπορεί να εξαγάγει δομημένες ιστορικές λεπτομέρειες για κάθε μικρή πόλη σε όλη την Ευρώπη ή να εξετάσει ένα μεγάλο σύνολο κριτικών πελατών και να εντοπίσει μοτίβα σε όσα εκτιμούν περισσότερο οι άνθρωποι. Στο άρθρο μας(ανοίγει σε νέο παράθυρο), αξιολογούμε το GPT στην επισήμανση ποιοτικών δεδομένων σε πολλές χρήσεις και διαπιστώνουμε ότι είναι ιδιαίτερα ακριβές.
Πέρα από αυτόν τον τύπο μέτρησης, το GABRIEL προσφέρει επίσης πρακτικά εργαλεία που συχνά χρειάζονται οι ερευνητές. Σε αυτά περιλαμβάνονται η συγχώνευση συνόλων δεδομένων ακόμη και όταν οι στήλες δεν ταιριάζουν, η έξυπνη αποδιπλοποίηση, η κωδικοποίηση αποσπασμάτων, η παραγωγή νέων επιστημονικών θεωριών και η αφαίρεση προσωπικών πληροφοριών από κείμενα για την προστασία της ιδιωτικότητας.
Το GABRIEL είναι ήδη διαθέσιμο ως open-source βιβλιοθήκη Python(ανοίγει σε νέο παράθυρο), με ένα σημειωματάριο εκμάθησης(ανοίγει σε νέο παράθυρο) για τα πρώτα βήματα. Έχει σχεδιαστεί ώστε να απαιτεί ελάχιστο τεχνικό υπόβαθρο. Θα συνεχίσουμε να βελτιώνουμε το GABRIEL με την πάροδο του χρόνου, με βάση τα σχόλια της ακαδημαϊκής κοινότητας. Ελπίζουμε αυτό το εργαλείο να βοηθήσει περισσότερους ερευνητές να ενσωματώσουν τον πλούτο των ποιοτικών δεδομένων και των ανθρώπινων ιστοριών στη δουλειά τους.


