16 ธันวาคม 2568

การประเมินความสามารถของ AI ในการทำงานวิจัยด้านวิทยาศาสตร์

เราขอแนะนำ FrontierScience ชุดทดสอบมาตรฐานใหม่ที่ประเมินขีดความสามารถของ AI ในด้านการใช้เหตุผลทางวิทยาศาสตร์ระดับผู้เชี่ยวชาญ ครอบคลุมทั้งสาขาฟิสิกส์ เคมี และชีววิทยา

อ่านเอกสาร

ภาพกราฟิกบางส่วนที่มีพื้นหลังไล่เฉดสีเขียวและเหลืองอ่อน ปรากฏตัวอักษรขนาดใหญ่ที่ถูกตัดขอบซึ่งเริ่มต้นด้วยคำว่า “จาก…” ส่วนทางด้านขวามีการวางข้อความซ้อนเป็นชั้นๆ ระบุถึงเกณฑ์การตรวจสอบ เช่น "ถูกต้องตามข้อเท็จจริง", "ให้คะแนนได้", "มีวัตถุประสงค์" และ "ยาก"

กำลังโหลด…

การให้เหตุผลเป็นหัวใจสำคัญของงานวิทยาศาสตร์ นอกเหนือจากการจดจำข้อเท็จจริง นักวิทยาศาสตร์ยังต้องสร้างสมมติฐาน ทดสอบและปรับปรุง และสังเคราะห์แนวคิดจากหลากหลายสาขา เมื่อโมเดลของเรามีขีดความสามารถเพิ่มมากขึ้น คำถามสำคัญที่ตามมาก็คือ พวกมันจะสามารถใช้เหตุผลเชิงลึกเพื่อสนับสนุนงานวิจัยทางวิทยาศาสตร์ได้อย่างไร

ในช่วงปีที่ผ่านมา โมเดลของเราได้สร้างความสำเร็จครั้งใหญ่ โดยคว้าเหรียญทองจากการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติและการแข่งขันโอลิมปิกวิชาการสารสนเทศนานาชาติ ในขณะเดียวกันเราเริ่มเห็นว่าโมเดลที่มีศักยภาพสูงสุด เช่น GPT‑5 กำลังช่วยขับเคลื่อนกระบวนการทำงานทางวิทยาศาสตร์ให้เร็วขึ้นอย่างมีนัยสำคัญ เหล่านักวิจัยกำลังใช้ระบบเหล่านี้ในงานต่างๆ เช่น การสืบค้นวรรณกรรมข้ามสาขาวิชาและข้ามภาษา ไปจนถึงการทำความเข้าใจและพิสูจน์สูตรคณิตศาสตร์ที่ซับซ้อน ในหลายสถานการณ์ โมเดลช่วยลดเวลาทำงานจากเดิมที่ต้องทำเป็นวันหรือเป็นสัปดาห์ ให้เสร็จสิ้นได้ในเวลาไม่กี่ชั่วโมง รายละเอียดความสำเร็จนี้มีระบุอยู่ในรายงานการทดลองเร่งความก้าวหน้าทางวิทยาศาสตร์ระยะเริ่มต้นด้วย GPT‑5⁠ ซึ่งเผยแพร่ในเดือนพฤศจิกายน 2568 โดยนำเสนอหลักฐานเบื้องต้นที่พบว่า GPT‑5 สามารถเร่งกระบวนการทำงานทางวิทยาศาสตร์ได้อย่างมีนัยสำคัญ

ขอแนะนำ FrontierScience

เนื่องจากการขับเคลื่อนวิทยาศาสตร์ให้ก้าวหน้าคือหนทางสำคัญสู่ประโยชน์ของมนุษยชาติ เราจึงมุ่งมั่นพัฒนาโมเดลของเราให้เชี่ยวชาญโจทย์คณิตศาสตร์และวิทยาศาสตร์ที่ยากขึ้น พร้อมทั้งสร้างเครื่องมือที่จะช่วยให้นักวิทยาศาสตร์ใช้งาน AI ได้อย่างเต็มประสิทธิภาพสูงสุด

เมื่อการทดสอบ GPQA⁠(เปิดในหน้าต่างใหม่) ซึ่งเป็นเกณฑ์มาตรฐานทางวิทยาศาสตร์ที่ "ยากระดับ Google ก็หาคำตอบไม่ได้" และร่างโดยผู้เชี่ยวชาญระดับปริญญาเอกถูกปล่อยออกมาในเดือนพฤศจิกายน 2566 นั้น GPT‑4 ทำคะแนนได้เพียง 39% ซึ่งยังคงต่ำกว่าเกณฑ์มาตรฐานของผู้เชี่ยวชาญที่ทำไว้ได้ถึง 70% สองปีต่อมา GPT‑5.2 ได้คะแนน 92% เมื่อโมเดลมีศักยภาพด้านการให้เหตุผลและความรู้เพิ่มขึ้น เกณฑ์ที่ท้าทายมากขึ้นจะมีบทบาทสำคัญในการวัดและทำนายความสามารถของโมเดลในการเร่งงานวิจัยทางวิทยาศาสตร์ เกณฑ์มาตรฐานทางวิทยาศาสตร์ก่อนหน้านี้ส่วนใหญ่เน้นคำถามแบบปรนัย มีความอิ่มตัว หรือไม่ได้เน้นที่วิทยาศาสตร์เป็นหลัก

เพื่อก้าวข้ามขีดจำกัดเดิม เราขอนำเสนอ FrontierScience มาตรฐานการวัดผลรูปแบบใหม่ที่ออกแบบมาเพื่อทดสอบศักยภาพทางวิทยาศาสตร์ขั้นสูงทัดเทียมกับผู้เชี่ยวชาญระดับโลก FrontierScience เขียนและตรวจสอบโดยผู้เชี่ยวชาญในสาขาฟิสิกส์ เคมี และชีววิทยา โดยประกอบด้วยคำถามหลายร้อยข้อที่ถูกออกแบบมาให้มีความยาก มีความแปลกใหม่ และมีความหมายต่อการวัดผลอย่างแท้จริง FrontierScience ประกอบด้วยชุดคำถามสองรูปแบบหลัก ได้แก่ สายโอลิมปิก (Olympiad) ซึ่งวัดขีดความสามารถในการให้เหตุผลทางวิทยาศาสตร์ในระดับการแข่งขันโอลิมปิก และสายวิจัย (Research) ซึ่งวัดทักษะความสามารถในการวิจัยทางวิทยาศาสตร์ในโลกแห่งความเป็นจริง การเปิดเผยศักยภาพด้านวิทยาศาสตร์ของ AI อย่างละเอียด มีส่วนสำคัญในการวัดระดับความสำเร็จ และช่วยเร่งขบวนการค้นพบทางวิทยาศาสตร์ยุคใหม่ด้วยเทคโนโลยี AI ให้รวดเร็วยิ่งขึ้น

ในการประเมินเบื้องต้น GPT‑5.2 เป็นโมเดลที่ทำประสิทธิภาพได้สูงสุดของเรา โดยทำคะแนนได้ 77% ในชุดทดสอบ FrontierScience-Olympiad และ 25% ในชุดทดสอบเกี่ยวกับงานวิจัย ซึ่งถือเป็นระดับที่เหนือกว่าโมเดลชั้นนำอื่นๆ ทั้งหมด เราเห็นความก้าวหน้าอย่างมีนัยสำคัญในการแก้ปัญหาคำถามระดับผู้เชี่ยวชาญ ขณะเดียวกันก็ยังมีช่องว่างสำหรับการพัฒนาเพิ่มเติม โดยเฉพาะในงานวิจัยที่มีลักษณะเปิดกว้าง สำหรับนักวิทยาศาสตร์ ข้อมูลนี้บ่งชี้ว่าโมเดลในปัจจุบันสามารถสนับสนุนงานวิจัยในส่วนที่ต้องใช้การให้เหตุผลเชิงโครงสร้างได้แล้ว แต่ก็ยังชี้ให้เห็นจุดอ่อนที่ต้องได้รับการแก้ไขอีกมาก โดยเฉพาะทักษะการคิดนอกกรอบและการสำรวจโจทย์วิจัยที่ซับซ้อนและไม่มีคำตอบตายตัว ผลลัพธ์เหล่านี้สอดคล้องกับแนวทางการใช้งานโมเดลของนักวิทยาศาสตร์ในปัจจุบัน กล่าวคือมีการใช้ AI เพื่อเร่งกระบวนการทำงานวิจัยในขณะที่ยังคงพึ่งพาการตัดสินใจของมนุษย์ในการกำหนดปัญหาและการตรวจสอบความถูกต้อง และมีการใช้งานเพิ่มขึ้นเรื่อยๆ ในการสำรวจแนวคิดและจุดเชื่อมโยงที่อาจต้องใช้เวลานานในการค้นพบ ในบางกรณี AI ยังช่วยนำเสนอข้อมูลเชิงลึกใหม่ๆ ให้ผู้เชี่ยวชาญนำไปประเมินและทดสอบต่ออีกด้วย

ท้ายที่สุดแล้วเกณฑ์มาตรฐานที่สำคัญที่สุดสำหรับขีดความสามารถทางวิทยาศาสตร์ของ AI ก็คือการค้นพบสิ่งใหม่ที่โมเดลช่วยสร้างให้เกิดขึ้น เพราะสิ่งเหล่านั้นคือสิ่งที่สำคัญที่สุดต่อวงการวิทยาศาสตร์และสังคมอย่างแท้จริง FrontierScience คือต้นน้ำของกระบวนการนั้น FrontierScience ทำหน้าที่เป็นเข็มทิศนำทางสำหรับการให้เหตุผลทางวิทยาศาสตร์ในระดับผู้เชี่ยวชาญ ซึ่งช่วยให้เราสามารถทดสอบโมเดลผ่านชุดคำถามที่เป็นมาตรฐาน ทำให้เห็นได้ว่าโมเดลประสบความสำเร็จหรือผิดพลาดตรงไหน และระบุได้ว่าเราจำเป็นต้องพัฒนาวนใดต่อไป FrontierScience มีขอบเขตที่แคบและมีข้อจำกัดในหลายด้าน (เช่น มุ่งเน้นไปที่ปัญหาที่ออกแบบโดยผู้เชี่ยวชาญและมีข้อจำกัด) และไม่ได้สะท้อนทุกสิ่งที่นักวิทยาศาสตร์ทำในงานประจำวัน อย่างไรก็ตามวงการนี้ยังคงต้องการเกณฑ์มาตรฐานทางวิทยาศาสตร์ที่มีความท้าทายมากขึ้น มีความแปลกใหม่ และทรงคุณค่ามากกว่าเดิม ซึ่ง FrontierScience ถือเป็นก้าวสำคัญที่ช่วยขับเคลื่อนไปในทิศทางดังกล่าว

FrontierScience วัดผลด้านใดและเราสร้างมันขึ้นมาอย่างไร

ชุดการประเมิน FrontierScience ฉบับเต็มครอบคลุมคำถามรูปแบบข้อความมากกว่า 700 ข้อ (โดยมี 160 ข้ออยู่ในชุดมาตรฐานอ้างอิง หรือ Gold Set) ซึ่งครอบคลุมสาขาวิชาย่อยต่างๆ ในด้านฟิสิกส์ เคมี และชีววิทยา ชุดการประเมินนี้ถูกแบ่งออกเป็น 2 ส่วนหลัก คือส่วนที่เน้นโจทย์ระดับโอลิมปิก และส่วนที่เน้นโจทย์ด้านการวิจัย FrontierScience-Olympiad ประกอบด้วยคำถาม 100 ข้อ ซึ่งได้รับการออกแบบโดยผู้ชนะเหรียญทองโอลิมปิกวิชาการระดับนานาชาติ เพื่อประเมินการให้เหตุผลทางวิทยาศาสตร์ภายใต้รูปแบบคำถามที่เน้นคำตอบแบบสั้นและกระชับ ชุดคำถามโอลิมปิกได้รับการออกแบบมาให้ประกอบด้วยโจทย์เชิงทฤษฎีที่มีความซับซ้อนในระดับเดียวกับหรือสูงกว่าข้อสอบที่ใช้แข่งขันบนเวทีโอลิมปิกระดับนานาชาติ FrontierScience-Research ประกอบด้วยงานวิจัยย่อยที่เป็นต้นฉบับจำนวน 60 งาน ซึ่งออกแบบโดยนักวิทยาศาสตร์ระดับดุษฎีบัณฑิต (ทั้งผู้สมัครสอบปริญญาเอก ศาสตราจารย์ หรือนักวิจัยหลังจบปริญญาเอก) โดยมีการประเมินผลด้วยเกณฑ์การให้คะแนนแบบ 10 คะแนน ชุดการทดสอบด้านงานวิจัยได้รับการออกแบบให้มีงานย่อยหลายขั้นตอนที่เป็นอิสระในตัวเอง โดยมีระดับความยากเทียบเท่ากับปัญหาที่นักวิทยาศาสตร์ระดับดุษฎีบัณฑิตอาจต้องเผชิญในระหว่างการทำวิจัยจริง

ตัวอย่างคำถาม

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

โจทย์แต่ละข้อใน FrontierScience จัดทำและตรวจสอบความถูกต้องโดยผู้เชี่ยวชาญเฉพาะทางในสาขาฟิสิกส์ เคมี หรือชีววิทยา ในส่วนของชุดทดสอบระดับโอลิมปิก ผู้เชี่ยวชาญทุกคนล้วนเป็นเจ้าของเหรียญรางวัลจากการแข่งขันโอลิมปิกวิชาการระดับนานาชาติอย่างน้อยหนึ่งรายการ (และส่วนใหญ่มักจะได้รับจากหลายรายการ) ในส่วนของชุดทดสอบด้านการวิจัย ผู้เชี่ยวชาญทุกคนล้วนเป็นผู้สำเร็จการศึกษาระดับปริญญาเอกในสาขาที่เกี่ยวข้อง

คำถามในชุดโอลิมปิกสร้างขึ้นความร่วมมือกับอดีตผู้ชนะเหรียญรางวัลระดับนานาชาติและผู้ฝึกสอนทีมชาติรวม 42 คนในสาขาที่เกี่ยวข้อง ซึ่งเป็นกลุ่มผู้เชี่ยวชาญที่ครองเหรียญรางวัลโอลิมปิกรวมกันถึง 109 เหรียญ ชุดคำถามงานวิจัยถูกจัดทำขึ้นโดยความร่วมมือกับนักวิทยาศาสตร์และผู้เชี่ยวชาญรวม 45 คน นักวิทยาศาสตร์ทุกคนล้วนเป็นผู้สมัครสอบดุษฎีบัณฑิต นักวิจัยหลังปริญญาเอก หรือศาสตราจารย์ กลุ่มผู้เชี่ยวชาญเหล่านี้มีความรู้ความชำนาญครอบคลุมศาสตร์เฉพาะทางที่สำคัญมากมาย ไม่ว่าจะเป็นวิชาที่ซับซ้อนอย่างพลศาสตร์ไฟฟ้าควอนตัม เคมีสังเคราะห์สารอินทรีย์ หรือชีววิทยาเชิงวิวัฒนาการ

ในขั้นตอนการพัฒนาชุดทดสอบ เราได้จงใจคัดโจทย์บางข้อออกไป (เช่นโจทย์ที่โมเดลของ OpenAI ทำได้ถูกต้อง เพื่อให้แน่ใจว่าแบบทดสอบจะมีความยากเพียงพอ ซึ่งผลที่ตามมาคือการประเมินนี้อาจทำให้โมเดลของเราเสียเปรียบเมื่อเทียบกับโมเดลคู่แข่ง เนื่องจากเป็นการทดสอบเฉพาะในจุดที่โมเดลของเรายังทำไม่ได้) เราได้เปิดเผยชุดคำถามมาตรฐานอ้างอิงในส่วนโอลิมปิกจำนวน 100 ข้อ และส่วนงานวิจัยจำนวน 60 ข้อในรูปแบบโอเพนซอร์ส โดยยังคงเก็บสำรองคำถามส่วนที่เหลือไว้เพื่อใช้ในการตรวจสอบการปนเปื้อนของข้อมูล

แผนผังลำดับขั้นแสดงขั้นตอนการพัฒนาโจทย์ 4 ระยะ ได้แก่ การสร้าง การตรวจสอบ การแก้ไข และการปรับปรุง พร้อมคำอธิบายสั้นๆ ในแต่ละขั้นตอน และเครื่องหมายถูกกำกับเกณฑ์ด้านความถูกต้องตามข้อเท็จจริง การให้คะแนนได้ วัตถุประสงค์ และความยาก

ดำเนินงานตามสี่ขั้นตอน คือ การสร้าง การตรวจสอบ การแก้ไข และการปรับปรุง ผู้เชี่ยวชาญอิสระตรวจสอบงานของกันและกันเพื่อให้แน่ใจว่าสอดคล้องกับเกณฑ์ที่กำหนด

วิธีที่เราให้คะแนนประสิทธิภาพของโมเดล

เราออกแบบชุดโอลิมปิกให้ตรวจคะแนนได้ง่ายด้วยคำตอบแบบสั้น ทั้งการตอบเป็นตัวเลข สูตรคำนวณ หรือการใช้ระบบตรวจคำสะกดที่ใกล้เคียง ซึ่งวิธีการนี้ช่วยให้เรายืนยันความถูกต้องของคำตอบได้อย่างมีประสิทธิภาพ อย่างไรก็ตามการตรวจสอบนี้มักแลกมาด้วยการลดทอนความสามารถในการแสดงออกและความเปิดกว้างของปัญหา สำหรับชุดการทดสอบด้านงานวิจัย เราได้นำโครงสร้างการประเมินตามเกณฑ์การให้คะแนนมาใช้ เพื่อให้สามารถวัดผลโจทย์ที่มีความยืดหยุ่นและเป็นปลายเปิดได้อย่างเหมาะสม คำถามแต่ละข้อประกอบด้วยเกณฑ์การให้คะแนนที่มีรายการประเมินย่อยหลายรายการซึ่งเป็นอิสระต่อกัน และสามารถวัดผลได้อย่างเป็นรูปธรรม โดยมีคะแนนรวมทั้งหมด 10 คะแนน เกณฑ์การให้คะแนนนี้ไม่เพียงแต่ประเมินความแม่นยำของคำตอบสุดท้ายเท่านั้น แต่ยังตรวจสอบความถูกต้องของขั้นตอนการให้เหตุผลในระหว่างทาง ซึ่งช่วยให้สามารถวิเคราะห์ประสิทธิภาพและข้อผิดพลาดของโมเดลได้อย่างละเอียดถี่ถ้วน วิธีแก้ปัญหาจะถือว่า "ถูกต้อง" หากได้รับคะแนนเกณฑ์ประเมินอย่างน้อย 7/10 คะแนน

คำตอบทั้งหมดจะถูกตรวจโดย GPT‑5 ซึ่งทำหน้าที่เป็นผู้ให้คะแนน โดยจะเทียบคำตอบกับเฉลยแบบสั้นหรือตรวจสอบตามเกณฑ์การให้คะแนนอย่างละเอียดในแต่ละข้อ แม้ว่าในอุดมคติเราอยากให้ผู้เชี่ยวชาญเป็นคนตรวจให้คะแนนเองทั้งหมด แต่เนื่องจากวิธีนี้ทำได้ยากในทางปฏิบัติเมื่อมีข้อมูลจำนวนมาก เราจึงพัฒนาเกณฑ์การให้คะแนนที่เอื้อต่อการตรวจด้วย AI เพื่อให้กระบวนการวัดผลรวดเร็วและเป็นระบ เราสร้างระบบการตรวจสอบคุณภาพขึ้นมาโดยเฉพาะ เพื่อการันตีว่าโจทย์และเกณฑ์การให้คะแนนมีความเที่ยงตรง ทั้งในแง่ของระดับความยากที่เหมาะสมและความถูกต้องของเนื้อหา

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

ในส่วนของโจทย์งานวิจัย เราใช้เกณฑ์การให้คะแนนแบบละเอียดรวม 10 คะแนน ซึ่งออกแบบมาให้ทั้งผู้เชี่ยวชาญเฉพาะทางและ AI ที่ทำหน้าที่เป็นผู้ตรวจสามารถใช้งานได้มาตรฐานเดียวกัน เพื่อขยายขีดความสามารถในการประเมินผลโมเดล เราได้นำโมเดลอีกตัวหนึ่งมาใช้ในการตรวจให้คะแนนคำตอบ

ประสิทธิภาพของโมเดล

เราได้ประเมินโมเดลแนวหน้าหลายตัว ได้แก่ GPT‑5.2, Claude Opus 4.5, และ Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, และ OpenAI o3 โดยการใช้ FrontierScience-Olympiad และ FrontierScience-Research โมเดลการให้เหตุผลทั้งหมดได้รับการประเมินด้วยความพยายามในการใช้เหตุผลระดับ "สูง" ยกเว้น GPT‑5.2 ที่ระดับ "สูงพิเศษ" ในการประเมินเบื้องต้น GPT‑5.2 เป็นโมเดลที่ทำประสิทธิภาพได้สูงสุดของเรา โดยทำคะแนนได้ 77% ในชุดทดสอบ FrontierScience-Olympiad และ 25% ในชุดทดสอบเกี่ยวกับงานวิจัย ซึ่งถือเป็นระดับที่เหนือกว่าโมเดลชั้นนำอื่นๆ ทั้งหมด Gemini 3 Pro มีความสามารถเทียบเท่ากับ GPT‑5.2 ในชุดทดสอบโอลิมปิก (ได้คะแนน 76%)

เราได้เห็นความก้าวหน้าอย่างมีนัยสำคัญในการแก้โจทย์ในระดับผู้เชี่ยวชาญ โดยเฉพาะอย่างยิ่งในโจทย์งานวิจัยที่เป็นปลายเปิด อย่างไรก็ตามโมเดลยังมีช่องว่างให้พัฒนาอีกมาก โดยจากการวิเคราะห์บันทึกการทำงานเพื่อหาจุดที่ล้มเหลว พบว่าโมเดลระดับแนวหน้ายังคงมีข้อผิดพลาดด้านการให้เหตุผล ตรรกะ และการคำนวณในบางครั้ง รวมถึงยังไม่เข้าใจแนวคิดทางวิทยาศาสตร์เฉพาะทาง และมีการให้ข้อมูลที่คลาดเคลื่อนจากความเป็นจริง

เราเปรียบเทียบความแม่นยำของโมเดลระดับแนวหน้าหลายโมเดล GPT‑5.2 เป็นโมเดลที่มีประสิทธิภาพสูงสุดของเราสำหรับการประเมินโดยใช้ FrontierScience-Research และชุด Olympiad

เราเปรียบเทียบความแม่นยำในความพยายามการให้เหตุผลสำหรับ GPT‑5.2 และ o3 การใช้เวลาคิดที่นานขึ้นนำไปสู่ความแม่นยำที่ดีขึ้น

ข้อจำกัดและก้าวต่อไป

แม้ว่า FrontierScience จะถือเป็นก้าวสำคัญในการยกระดับความยากของเกณฑ์มาตรฐานทางวิทยาศาสตร์ แต่ในขณะเดียวกันก็ยังมีข้อจำกัดอีกหลายประการที่ต้องพิจารณา โครงสร้างของ FrontierScience ประกอบด้วยโจทย์มีการกำหนดขอบเขตของโจทย์อย่างชัดเจน เพื่อมุ่งวัดผลใน 2 รูปแบบ คือ การตรวจคำตอบที่ถูกต้องในระดับโอลิมปิก และการวิเคราะห์ตรรกะความคิดในการแก้โจทย์ระดับงานวิจัย ยิ่งไปกว่านั้นเมื่อโจทย์มีความยาวและต้องใช้เกณฑ์การให้คะแนนหลายหัวข้อ ความแม่นยำตรงไปตรงมาของผลการตรวจก็อาจลดน้อยลง เมื่อเทียบกับการตรวจคำตอบสุดท้ายแบบถูกหรือผิดที่ชัดเจนกว่า

FrontierScience ช่วยให้เราเห็นภาพกระบวนการให้เหตุผลของโมเดลต่อโจทย์ระดับยากที่ออกแบบโดยผู้เชี่ยวชาญได้อย่างละเอียดและชัดเจนยิ่งขึ้น แต่ก็ยังไม่สามารถแสดงภาพรวมทั้งหมดของการทำวิทยาศาสตร์ในโลกแห่งความเป็นจริงได้ เกณฑ์นี้ยังไม่ได้ประเมินส่วนสำคัญของการวิจัยทางวิทยาศาสตร์ นั่นคือความสามารถของโมเดลในการสร้างสมมติฐานที่แปลกใหม่และสร้างสรรค์ หรือการปฏิสัมพันธ์กับข้อมูลหลากหลายรูปแบบ เช่น ข้อมูลวิดีโอ และการทำงานร่วมกับระบบการทดลองจริงในโลกกายภาพ

สำหรับก้าวต่อไป เราเชื่อว่ากุญแจสำคัญสู่ความสำเร็จในด้านการคิดวิเคราะห์ทางวิทยาศาสตร์ มาจากทั้งการพัฒนา AI พื้นฐานให้คิดเป็นตรรกะเก่งขึ้น และการทุ่มเทพัฒนาทักษะเฉพาะทางเพื่อเพิ่มศักยภาพด้านวิทยาศาสตร์ให้แข็งแกร่งกว่าเดิม FrontierScience เป็นเพียงหนึ่งในเครื่องมือวัดผลที่มีอยู่มากมาย และเมื่อ AI เก่งขึ้น เราจะเดินหน้าพัฒนาเกณฑ์นี้ให้ทันสมัยอยู่เสมอ พร้อมขยายผลไปสู่ศาสตร์แขนงใหม่ๆ และนำไปทดสอบกับการทำงานจริง เพื่อวัดผลให้ชัดเจนว่าระบบของเราจะเข้ามาช่วยให้นักวิทยาศาสตร์ทำงานได้มากขึ้นเพียงใด ชุดทดสอบมาตรฐานอย่าง FrontierScience ทำให้เรามองเห็นข้อจำกัดของ AI ในวันนี้ เพื่อที่เราจะได้ทุ่มเททรัพยากรไปกับการสร้างโมเดลที่เป็นคู่คิดที่พึ่งพาได้สำหรับการสร้างสรรค์นวัตกรรมและการค้นพบใหม่ ๆ ทางวิทยาศาสตร์

ผู้เขียน

OpenAI

อ่านต่อ

ดูทั้งหมด

GPT-Red: การปลดล็อกการพัฒนาตนเองเพื่อสร้างความทนทาน

ความปลอดภัย15 ก.ค. 2569

การแยกผลลัพธ์ที่แท้จริงออกจากข้อผิดพลาดในการประเมินการเขียนโค้ด

งานวิจัย8 ก.ค. 2569

ขอแนะนำ GeneBench-Pro

งานวิจัย30 มิ.ย. 2569