Нови инструменти за разбиране на изкуствения интелект и резултатите от обучението
Подобряване на начина, по който се измерва въздействието на ИИ в различни учебни среди
Образованието е една от най-обещаващите области за развитие на изкуствения интелект. С инструменти като ChatGPT персонализираната помощ за учене може да бъде достъпна за всеки ученик, навсякъде и по всяко време.
Но секторът на образованието все още е в ранен етап от разбирането си за въздействието на ИИ върху резултатите от обучението. Миналата година нашият екип си постави за цел да проучи използването на инструменти като режим на учене и установи обещаващи подобрения в успеваемостта на студентите. Нашите изследвания обаче повдигнаха и важен въпрос: как можем да оценим как ИИ влияе върху напредъка на учащия се с течение на времето, а не само на финален изпит?
Това е предизвикателство за по-широката екосистема. Към днешна дата повечето изследователски методи се фокусират върху тесни метрики за представяне, като например резултати от тестове, и нямат способността да оценят как учениците действително учат с изкуствен интелект в реални условия и как тази употреба влияе на резултатите с течение на времето.
За да запълним тази празнина, разработихме пакета за измерване на резултатите от учебния процес, рамка, създадена съвместно с Университета на Тарту в Естония и инициативата SCALE към Ускорителя за обучение на Станфорд, за да подпомогнем дългосрочното измерване на резултатите от обучението в различни образователни контексти.
В момента се провежда задълбочена проверка чрез контролирано изследване със случайно подбрани участници, а са планирани и допълнителни проучвания с учредителни организации в Learning Lab – изследователската екосистема на OpenAI за учене – включително изследователи от Държавния университет на Аризона, Лабораторията за знание на UCL и Медийната лабораторията на MIT (надграждайки върху предишни съвместни изследвания).
Днес споделяме обзор на това как работи пакетът за измерване и защо това има значение. С течение на времето възнамеряваме да публикуваме повече изследвания и да предоставим пакета за измерване като обществен ресурс за училища, университети и образователни системи по цял свят.
„Това проучване ни позволява да се учим бързо, като същевременно полагаме основите на едно по-задълбочено разбиране на това как изкуственият интелект може да бъде интегриран смислено в учебните заведения по начини, които наистина имат значение. Искаме да разберем как тези инструменти могат да подкрепят задълбоченото академично обучение, като същевременно развиват мисловни умения от по-висок порядък, креативност, любопитство и увереността на учениците в самите тях като учащи се.
- Днешните изследователски методи за въздействието на изкуствения интелект върху обучението показват обещаващи данни за представянето, но не улавят пълната картина за това как изкуственият интелект влияе върху резултатите от обучението с течение на времето.
- Пакетът за измерване на резултатите от обучението за първи път ще предостави стандартна рамка за дългосрочни изследвания, които помагат на преподаватели, изследователи и институции да разберат как изкуственият интелект оформя обучението и резултатите от него в различни контексти.
- Learning Lab на OpenAI е нова изследователска екосистема, насочена към напредъка в тази област. OpenAI ще публикува констатации заедно с редица партньори, тъй като областта продължава да се развива.
Когато учениците използват инструменти с ИИ, за да учат и да се обучават, това може да означава много различни неща – от това да се обръщат към ИИ за бързи отговори до това да го използват, за да разрешават задачи поетапно с насоки като от преподавател. За да насърчи потребителите да се ангажират с ChatGPT по начини, които подпомагат по-задълбоченото разбиране и развиването на умения, OpenAI въведе режим на учене миналата година. Режимът на учене се основава на персонализирани системни инструкции, които сме написали в сътрудничество с учители, учени и експерти по педагогика, за да отразява основен набор от поведения, които подкрепят реалното учене, а не само отговори – чрез използване на база, проверки за разбиране и практика с упътване.
За да проверим дали този вид педагогически съобразен стил на взаимодействие с ИИ води до по-добри резултати от обучението, проведохме проучване с над 300 случайно подбрани колежани, които се подготвяха за изпити по невронаука и микроикономика. Въпреки че данните все още се анализират, ранните резултати ни дават увереност, че педагогически съобразен стил на взаимодействие с ИИ, насърчаван чрез функции като режим на учене, може да подобри резултатите от обучението. Но това изследване също така разкри една важна реалност. Това, което наистина има значение, е дали постигнатите резултати и свързаните с тях продуктивни поведения остават устойчиви с течение на времето.
Структура на изследването
Участниците бяха разпределени в една от три групи: контролна група учеше, използвайки традиционни онлайн ресурси като Google Search и YouTube, с деактивирани функции за преглед от ИИ, докато на две допълнителни групи беше предоставен достъп до един от два варианта на режим на учене, предназначени да ръководят студентите в процеса на учене по малко по-различни начини. Базовите тестове и анкети за въвеждане бяха събрани предварително, за да се коригират разликите в предишния учебен опит, учебните навици, академичната увереност и опита с ИИ инструменти. Студентите завършваха сесии в режим на учене с ограничено време преди всеки изпит, като двата варианта на режима на учене бяха наравно разпределени между участниците.
Тази конфигурация бе проектирана да пресъздава реални учебни условия, вместо строго контролирана лабораторна среда. Участието не беше свързано с представяне на изпити, а и не всички студенти използваха режима на учене в еднаква степен по време на номиналните 40-минутни сесии. Това ни позволи да измерим и отчетем ефектите, базирани на първоначално зададените групи (ITT), въздействието от предоставянето на достъп до инструмента при реалистични условия на внедряване – с други думи, причинно-следственото въздействие от предлагането на режим на учене, като признаваме, че ангажираността може да варира на практика.
Резултати
Измерихме представянето на всеки изпит поотделно. В нашето проучване на случаен принцип подобренията не бяха еднакви при всички участници, а нивата на ангажираност с режим на учене варираха между участниците.
- Невронаука (първичен ITT): Наблюдавахме последователно положителни разлики при режима на учене спрямо контролната група, но резултатите не се различаваха от тези на студентите, които учат с традиционни онлайн ресурси. Някои проблеми при ориентацията и технически проблеми повлияха на времето, прекарано в учене, сред студентите, използващи режима на учене.
- Микроикономика (първичен ITT): Наблюдавахме значими подобрения в резултатите от изпита сред студентите, на които беше предоставен достъп до режим на учене, спрямо контролната група, учеща без ИИ – приблизително с 15% по-висок резултат.
Ефектът остава последователен, когато сравняваме всеки вариант на режим на учене поотделно с контролната група.
Въпреки че това отразява вариации в реалния свят, то подчерта по-дълбоко ограничение в начина, по който обикновено се измерват резултатите от обучението.
Повечето съществуващи подходи за оценяване разчитат на фиксирани намеси, оценявани в кратки времеви прозорци, като използват резултати като тестови оценки или финални есета като основни сигнали. Тези методи не са предназначени да уловят основния механизъм, чрез който ИИ влияе върху ученето на практика: постоянни, персонализирани взаимодействия, които се развиват заедно със собствените стратегии, предпочитания и учебни навици на учащия. Нито пък показват дали подобренията в едно умение, като краткосрочна памет, могат да вървят редом с компромиси в други, като постоянство, автономна мотивация или творческо решаване на проблеми. В резултат на това те пропускат дългосрочните когнитивни ефекти, които в крайна сметка определят дали ИИ значимо подобрява ученето.
Тъй като учебните среди се различават значително в различните държави, учебни програми и институционални цели, резултатите от еднократни проучвания рядко се обобщават за различните системи. Следователно подходите за измерване трябва да бъдат достатъчно гъвкави, за да могат различните образователни системи да дефинират как изглежда успехът в техния контекст, да оценяват ИИ спрямо собствените си стандарти и да правят съответните итерации.
Изграждане на по-добра система за измерване
Въз основа на наученото от изследванията на OpenAI за режим на учене, изграждаме структурирана система за измерване на въздействието на ИИ върху учащите се в мащаб и да създадем механизъм за подобряване на моделите въз основа на тези резултати. Тя се основава на три сигнала – как се държи моделът, как реагират обучаващите се и какви измерими когнитивни резултати се наблюдават с течение на времето. Това включва:
- Системни указания за прецизиране на поведението на модела: използване на естествен език за промяна на поведението по подразбиране на модела, така че да е по-добре съгласувано с конкретни педагогически подходи.
- Класификатори на учебни взаимодействия: те автоматично откриват „учебни моменти“ в реални, обезличени взаимодействия между учащия се и модела и маркират важни характеристики като ангажираност и корекция на грешки.
- Оценители на качеството на ученето: те оценяват и дават резултат за всеки от тези учебни моменти според това дали обучаващият се е постигнал целта си и степента, до която взаимодействието е следвало силни педагогически принципи, включително идентифициране на режими на отказ.
- Оценители за надлъжно обучение: те проследяват промените във взаимодействията на един и същ учащ с модела във времето – включително ангажираност, постоянство и метакогнитивни стратегии – на индивидуално и групово ниво.
- Стандартизирани когнитивни и метакогнитивни измервания: това са валидирани инструменти на трети страни, предоставяни чрез ChatGPT преди/по време на/след достъпа, за да се установят базови нива и да се измерят промените в основополагащи способности като критично мислене, креативност и памет.
Когато се комбинират, наричаме тази система за измерване пакет за измерване на резултатите от учебния процес.
Това генерира важни сигнали, които образователната екосистема може да използва: структурирани представи за учебни моменти, табла за управление, показващи как резултатите се променят с течение на времето в различни групи, показатели за представянето на модела спрямо рубрики за преподаване и наставничество, и измервания за резултатите, съгласувани със стандартизирани оценявания и кратки въпросници за обучаващите се. Когато е налично, то може да включва предоставена от партньори реалност, като например резултати от изпити, наблюдения в класната стая или присъствие.
Всички данни са деидентифицирани
Това също така позволява на нашите партньори да разберат по-задълбочените когнитивни въздействия от използването на ИИ върху ученето с течение на времето, тъй като чрез тази система можем също така да проследяваме въздействието върху способности като:
- Автономна мотивация: степента, до която учащите се оформят собственото си обучение спрямо това да бъдат насочвани от модела
- Продуктивна ангажираност: честотата, разнообразието и качеството на педагогическите взаимодействия
- Устойчивост при изпълнение на задачи: степента, до която обучаващият се остава ангажиран и преодолява когнитивни предизвикателства
- Метакогниция: честотата и качеството на усилията на обучаващия да планира, да разсъждава и да наблюдава своите подходи към ученето
- Памет: точността, с която учащият се може да си спомни съдържание от предишни взаимодействия
Това отразява общите ни усилия да не се фокусираме просто върху тесни определения на учебните резултати (повишаване на резултатите от тестове), а върху цялостните способности, които са в основата на ученето. Това също отразява нашето убеждение, че няма да има универсално решение по отношение на това какво да се оптимизира: системите и преподавателите ще трябва да бъдат овластени да насочват компромисите в съответствие с най-добрите педагогически практики и подходи.
Накъде отиваме оттук
Валидираме пакета за измерване на резултатите от учебния процес чрез мащабни проучвания, преди да го направим широко достъпен. Тази работа е в ход съвместно с Университета в Тарту и инициативата SCALE на Станфорд в рамките на партньорства в национален мащаб, като например в Естония, където пакетът за измерване се изучава с близо 20 000 ученици на възраст от 16 до 18 години в продължение на няколко месеца. Употребата от страна на учениците ще се осъществява в тясно сътрудничество с местните ръководители, за да се гарантира безопасността и съответствието с местните учебни програми.
„Естония винаги е подхождала към образованието не като към нещо статично, а като към система, която непрекъснато подобряваме. С навлизането на изкуствения интелект големият въпрос е как измерваме дългосрочното въздействие на ИИ върху ученето. Ето това изясняваме в сътрудничество с OpenAI. Студентите имат желание да участват в процеса на разработване и много от тях искат да научат как ИИ може да подпомага учението. Усещаме, че е истински повратен момент и сме развълнувани да допринесем с методи, които други образователни системи могат да използват и да надграждат.”
Тази работа се основава на по-широк набор от съвместни изследвания, които са в ход. В допълнение към изследванията на резултатите, които се провеждат чрез основателите партньори в Learning Lab, OpenAI подкрепя проучвания на пресечната точка между образованието и труда – като изследва как ИИ оформя академичните пътеки на студентите, решенията за кариерата им и начините, по които институциите могат да подкрепят отговорното внедряване. Това изследване се провежда в Университета „Бокони“, Innova Schools и Бизнес училище „Тък“ към Дартмут, Държавен университет Сан Диего, Университет Стъни Брук и други.
Докато провеждаме по-дългосрочни проучвания за това как учениците учат най-добре с помощта на ИИ, възнамеряваме да споделяме резултатите и да работим с по-широката образователна екосистема, за да гарантираме, че ИИ носи ползи за учащите навсякъде.
Всеки, който желае да получава актуализации за тази работа, може да се регистрира тук.


