Bỏ qua nội dung chính
OpenAI

Mở rộng nghiên cứu khoa học xã hội

Một công cụ mới để hỗ trợ các nhà nghiên cứu chuyển đổi dữ liệu định tính thành các con số mà họ có thể phân tích.

Đang tải…

Một phần cốt lõi trong công việc của chúng tôi tại OpenAI là giúp các nhà khoa học tiến nhanh hơn và giải quyết các vấn đề khó khăn hơn. Hôm nay, Nhóm Nghiên cứu Kinh tế của chúng tôi phát hành GABRIEL: một bộ công cụ mã nguồn mở sử dụng GPT để chuyển đổi văn bản và hình ảnh phi cấu trúc thành các phép đo định lượng. Nó được thiết kế cho các nhà kinh tế học, nhà khoa học xã hội và nhà khoa học dữ liệu để nghiên cứu dữ liệu định tính ở quy mô lớn.

Dữ liệu định tính kể những câu chuyện phong phú nhất về thế giới—những gì mọi người nói, viết, dạy, tranh luận và trải nghiệm. Nó bao gồm mọi thứ từ giáo trình và phỏng vấn đến mạng xã hội và ảnh. Có một lượng rất lớn. Tuy nhiên, việc chuyển đổi loại dữ liệu đó thành bằng chứng chặt chẽ là một quá trình vô cùng tốn thời gian. Thường thì điều đó không khả thi chút nào. Trong rất nhiều trường hợp, các nhà khoa học xã hội buộc phải từ bỏ những hướng nghiên cứu quan trọng, không phải vì dữ liệu không tồn tại, mà vì không thể phân tích được.

GABRIEL được thiết kế để làm cho dữ liệu định tính dễ tiếp cận hơn nhiều. Nó cho phép các nhà nghiên cứu mô tả những gì họ muốn đo lường bằng những từ ngữ đời thường—chẳng hạn như “tin tuyển dụng này thân thiện với gia đình đến mức nào?”—và sau đó áp dụng câu hỏi đó một cách nhất quán trên hàng nghìn (hoặc hàng triệu) tài liệu, trả về một điểm số cho từng tài liệu. Điều này cho phép các nhà nghiên cứu dành ít thời gian hơn cho việc gắn nhãn dữ liệu lặp đi lặp lại và nhiều thời gian hơn cho công việc thực sự cần chuyên môn: lựa chọn những gì cần đo lường, xác thực kết quả và đưa ra các kết luận cẩn thận.

Ví dụ, GABRIEL có thể phân tích một bộ sưu tập lớn các bài báo khoa học để xem những phương pháp cụ thể nào được sử dụng và cách chúng phát triển theo thời gian. Nó có thể xem xét chương trình giảng dạy của khóa học để đánh giá mức độ chú ý được dành cho các môn học hoặc kỹ năng khác nhau. Nó có thể trích xuất các chi tiết lịch sử có cấu trúc cho mọi thị trấn nhỏ trên khắp châu Âu, hoặc phân tích một kho tàng các bài đánh giá của khách hàng và phát hiện các xu hướng trong những điều mọi người coi trọng nhất. Trong bài báo của chúng tôi(mở trong cửa sổ mới), chúng tôi đánh giá hiệu suất của GPT trong việc gắn nhãn dữ liệu định tính trên nhiều trường hợp sử dụng và nhận thấy rằng nó có độ chính xác rất cao.

Ngoài loại phép đo này, GABRIEL cũng cung cấp các công cụ thực tiễn mà các nhà nghiên cứu thường cần. Những điều này bao gồm hợp nhất các tập dữ liệu ngay cả khi các cột không khớp, khử trùng lặp thông minh, mã hóa đoạn văn, hình thành các lý thuyết khoa học mới và loại bỏ thông tin nhận dạng cá nhân khỏi văn bản để bảo vệ quyền riêng tư.

GABRIEL hiện đã có sẵn dưới dạng một thư viện Python mã nguồn mở(mở trong cửa sổ mới), kèm theo một sổ tay hướng dẫn(mở trong cửa sổ mới) để bắt đầu. Nó được thiết kế để yêu cầu kiến thức kỹ thuật tối thiểu. Chúng tôi sẽ tiếp tục cải thiện GABRIEL theo thời gian dựa trên phản hồi từ cộng đồng học thuật. Chúng tôi hy vọng công cụ này sẽ giúp nhiều nhà nghiên cứu đưa sự phong phú của dữ liệu định tính và những câu chuyện của con người vào công việc của họ.