메인 콘텐츠로 건너뛰기
OpenAI

사회과학 연구의 확장

연구자가 정성적 데이터를 분석 가능한 수치로 바꾸는 데 도움을 주는 새로운 도구입니다.

로딩 중...

OpenAI의 핵심 작업 중 하나는 과학자들이 더 빠르게 움직이고 더 어려운 문제를 풀 수 있도록 돕는 것입니다. 오늘 Economic Research Team은 GABRIEL을 공개합니다. GABRIEL은 GPT를 사용해 비정형 텍스트와 이미지를 정량적 측정값으로 바꾸는 오픈소스 툴킷으로, 경제학자, 사회과학자, 데이터 과학자가 대규모의 정성적 데이터를 연구할 수 있도록 설계되었습니다.

정성적 데이터는 사람들이 말하고, 쓰고, 가르치고, 토론하고, 경험하는 모든 것을 포함하여 세상이 어떻게 돌아가는지에 대한 가장 풍부한 이야기를 담고 있습니다. 강의계획서와 인터뷰부터 소셜 미디어와 사진까지 매우 넓은 범위를 아우르며, 그 양도 방대합니다. 하지만 이런 유형의 데이터를 철저한 근거로 바꾸는 일은 엄청난 시간이 소요되며, 아예 불가능한 경우도 많습니다. 사회과학자들이 데이터가 없어서가 아니라 분석이 사실상 불가능하기 때문에 중요한 연구 방향을 포기해야 하는 경우가 너무나도 많습니다.

GABRIEL은 정성적 데이터를 훨씬 더 쉽게 다룰 수 있도록 만들기 위해 개발되었습니다. 연구자는 “이 채용 공고는 얼마나 가족 친화적인가요?”처럼 측정하고 싶은 것을 일상적인 언어로 설명할 수 있으며, GABRIEL은 같은 질문을 수천(또는 수백만) 개의 문서에 일관되게 적용해 각 문서에 대한 점수를 반환합니다. 이를 통해 연구자는 반복적인 데이터 라벨링에 할애하는 시간을 줄이고, 무엇을 측정할지 정하고, 결과를 검증하고, 신중한 결론을 도출하는 등 실제 전문성이 필요한 일에 더 많은 시간을 쓸 수 있습니다.

예를 들어 GABRIEL은 방대한 과학 논문 모음을 분석하여 어떤 구체적인 방법이 사용되는지 및 이러한 방법이 시간이 지날수록 어떻게 변화하는지 살펴볼 수 있습니다. 강의 커리큘럼을 분석해 여러 주제나 기술에 얼마나 많은 비중을 두는지도 측정할 수 있습니다. 유럽 전역의 작은 마을마다 구조화된 역사 정보를 추출하거나, 대량의 고객 리뷰를 살펴보며 사람들이 가장 중요하게 여기는 요소에 어떤 패턴이 있는지 찾아낼 수도 있습니다. 저희 논문(새 창에서 열기)에서는 여러 사용 사례에 걸쳐 GPT의 정성적 데이터 라벨링 성능을 벤치마크한 결과, 매우 높은 정확도를 보인다는 사실을 확인할 수 있었습니다.

GABRIEL은 이러한 측정 기능을 넘어 연구자들이 종종 필요로 하는 실용적인 도구도 제공합니다. 예를 들어 열이 일치하지 않아도 데이터 세트를 병합하는 기능, 스마트 중복 제거, 패시지 코딩, 새로운 과학 이론 구상, 개인정보 보호를 위해 텍스트에서 개인정보를 비식별화하는 기능 등도 지원합니다.

현재 GABRIEL은 오픈소스 Python 라이브러리(새 창에서 열기)로 제공되며, 시작에 도움이 되는 튜토리얼 노트북(새 창에서 열기)도 함께 제공됩니다. GABRIEL은 최소한의 기술 분야 경력만 있으면 사용할 수 있도록 설계되었습니다. 저희는 학계 커뮤니티의 피드백을 바탕으로 앞으로도 GABRIEL을 계속 개선해 나갈 예정입니다. 이 도구가 더 많은 연구자들이 정성적 데이터와 인간의 이야기가 지닌 풍부함을 연구에 담아내는 데 도움이 되기를 바랍니다.

작성자

OpenAI