ನಮ್ಮ ಮೊದಲ ಪುರಾವೆ ಸಲ್ಲಿಕೆಗಳು
ನಾವು ಫಸ್ಟ್ ಪ್ರೂಫ್ ಎಂಬ ಗಣಿತ ಸವಾಲಿಗಾಗಿ ನಮ್ಮ ಪುರಾವೆ ಪ್ರಯತ್ನಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತಿದ್ದೇವೆ, ಇದು AI ಡೊಮೇನ್-ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಗಳ ಮೇಲೆ ಪರಿಶೀಲಿಸಬಹುದಾದ ಪುರಾವೆಗಳನ್ನು ಉತ್ಪಾದಿಸಬಹುದೇ ಎಂಬುದನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ.
ನಾವು ಎಲ್ಲಾ ೧೦ ಫಸ್ಟ್ ಪ್ರೂಫ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಸಮಸ್ಯೆಗಳ ಮೇಲೆ ಆಂತರಿಕ ಮಾಡೆಲ್ ಅನ್ನು ಚಲಾಯಿಸಿದ್ದೇವೆ, ಇದು AI ವ್ಯವಸ್ಥೆಗಳು ಸರಿಯಾದ, ಪರಿಶೀಲಿಸಬಹುದಾದ ಪುರಾವೆ ಪ್ರಯತ್ನಗಳನ್ನು ಉತ್ಪಾದಿಸಬಹುದೇ ಎಂಬುದನ್ನು ಪರೀಕ್ಷಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಸಂಶೋಧನಾ-ಮಟ್ಟದ ಗಣಿತ ಸವಾಲಾಗಿದೆ. ಸಂಕ್ಷಿಪ್ತ-ಉತ್ತರ ಅಥವಾ ಸ್ಪರ್ಧಾತ್ಮಕ ಶೈಲಿಯ ಗಣಿತಕ್ಕಿಂತ ಭಿನ್ನವಾಗಿ, ಈ ಸಮಸ್ಯೆಗಳು ವಿಶೇಷ ಡೊಮೇನ್ಗಳಲ್ಲಿ ಸಂಪೂರ್ಣ ವಾದಗಳನ್ನು ನಿರ್ಮಿಸಲು ಅಗತ್ಯವಿರುತ್ತದೆ ಮತ್ತು ತಜ್ಞರ ಪರಿಶೀಲನೆಯಿಲ್ಲದೆ ಸರಿಯಾದತೆಯನ್ನು ಸ್ಥಾಪಿಸುವುದು ಕಷ್ಟ. ಫಸ್ಟ್ ಪ್ರೂಫ್ ಸಮಸ್ಯೆಗಳ ಲೇಖಕರು ತಮ್ಮ ತಮ್ಮ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಮುಂಚೂಣಿ ತಜ್ಞರು, ಮತ್ತು ಲೇಖಕರು ಪರಿಹಾರಗಳನ್ನು ಕಂಡುಕೊಳ್ಳುವ ಮೊದಲು ಕನಿಷ್ಠ ಕೆಲವು ಸಮಸ್ಯೆಗಳು ವರ್ಷಗಳ ಕಾಲ ತೆರೆದೇ ಇವೆ. ವಿಷಯ ಕ್ಷೇತ್ರಗಳೊಂದಿಗೆ ಸಾಕಷ್ಟು ಹೊಂದಾಣಿಕೆ ಹೊಂದಿರುವ ಒಂದು ಶೈಕ್ಷಣಿಕ ವಿಭಾಗವು ಒಂದು ವಾರದಲ್ಲಿ ಅನೇಕ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಬಹುದು ಎಂದು ಕಲ್ಪಿಸಬಹುದು.
ನಾವು ನಮ್ಮ ಪ್ರೂಫ್ ಪ್ರಯತ್ನಗಳನ್ನು ಶನಿವಾರ, 14 ಫೆಬ್ರವರಿ, 2026, 12:00 AM PT ಗೆ ಹಂಚಿಕೊಂಡೆವು(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ). ತಜ್ಞರಿಂದ ಬಂದ ಪ್ರತಿಕ್ರಿಯೆಯ ಆಧಾರದ ಮೇಲೆ, ಮಾಡೆಲ್ನ ಕನಿಷ್ಠ ಐದು ಸಾಬೀತು ಪ್ರಯತ್ನಗಳು (ಸಮಸ್ಯೆಗಳು 4, 5, 6, 9 ಮತ್ತು 10) ಸರಿಯಾಗಿರುವ ಸಾಧ್ಯತೆ ಹೆಚ್ಚು ಎಂದು ನಾವು ನಂಬುತ್ತೇವೆ ಮತ್ತು ಇನ್ನೂ ಹಲವಾರು ಪರಿಶೀಲನೆಯಲ್ಲಿವೆ. ನಾವು ಆರಂಭದಲ್ಲಿ ಸಮಸ್ಯೆ 2 ಗಾಗಿ ಮಾಡಿದ ನಮ್ಮ ಪ್ರಯತ್ನವು ಬಹುಶಃ ಸರಿಯಾಗಿದೆ ಎಂದು ನಂಬಿದ್ದೆವು. ಅಧಿಕೃತ ಫಸ್ಟ್ ಪ್ರೂಫ್ ಟಿಪ್ಪಣಿ ಮತ್ತು ಸಮುದಾಯದ ಹೆಚ್ಚಿನ ವಿಶ್ಲೇಷಣೆಯ ಆಧಾರದ ಮೇಲೆ, ನಾವು ಈಗ ಇದನ್ನು ತಪ್ಪಾಗಿದೆ ಎಂದು ನಂಬುತ್ತೇವೆ. ನಾವು ತೊಡಗಿಸಿಕೊಳ್ಳುವಿಕೆಗೆ ಕೃತಜ್ಞರಾಗಿದ್ದು, ಮುಂದುವರಿದ ಪರಿಶೀಲನೆಗಾಗಿ ಎದುರು ನೋಡುತ್ತಿದ್ದೇವೆ. ನಮ್ಮ ಎಲ್ಲಾ ಪುರಾವೆ ಪ್ರಯತ್ನಗಳನ್ನು ಇಲ್ಲಿ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಕಾಣಬಹುದು. ಪ್ರೀಪ್ರಿಂಟ್ನಲ್ಲಿ ಎಲ್ಲಾ ಹತ್ತು ಪ್ರೂಫ್ ಪ್ರಯತ್ನಗಳು ಸೇರಿವೆ, ಜೊತೆಗೆ ಪ್ರಕ್ರಿಯೆಯ ಸಮಯದಲ್ಲಿ ಮಾಡೆಲ್ಗಳೊಂದಿಗೆ ನಮ್ಮ ಕೈಯಾರೆ ಸಂವಹನಗಳನ್ನು ಅನುಕರಿಸಲು ಉದ್ದೇಶಿಸಿರುವ ಪ್ರಾಂಪ್ಟ್ ಮಾದರಿಗಳು ಮತ್ತು ಉದಾಹರಣೆಗಳನ್ನು ಹೊಂದಿರುವ ಹೊಸದಾಗಿ ಸೇರಿಸಲಾದ ಒಂದು ಅನುಬಂಧವೂ ಇದೆ.
ನಾವು ನಂಬುವಂತೆ, ಮುಂದಿನ ತಲೆಮಾರಿನ AI ಮಾಡೆಲ್ಗಳ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಹೊಸ ಅತ್ಯಾಧುನಿಕ ಸಂಶೋಧನೆಯೇ ಬಹುಶಃ ಅತ್ಯಂತ ಮುಖ್ಯವಾದ ಮಾರ್ಗವಾಗಿದೆ. ಬೆಂಚ್ಮಾರ್ಕ್ಗಳು ಉಪಯುಕ್ತವಾಗಿವೆ, ಆದರೆ ಅವು ಸಂಶೋಧನೆಯ ಕೆಲವು ಅತ್ಯಂತ ಕಠಿಣ ಭಾಗಗಳನ್ನು ತಪ್ಪಿಸಬಹುದು: ರೀಜನಿಂಗ್ನ ದೀರ್ಘ ಸರಪಳಿಗಳನ್ನು ನಿರಂತರವಾಗಿ ಮುಂದುವರಿಸುವುದು, ಸರಿಯಾದ ಅಬ್ಸ್ಟ್ರಾಕ್ಷನ್ಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡುವುದು, ಸಮಸ್ಯಾ ಹೇಳಿಕೆಗಳಲ್ಲಿನ ಅಸ್ಪಷ್ಟತೆಯನ್ನು ನಿರ್ವಹಿಸುವುದು ಮತ್ತು ತಜ್ಞರ ಪರಿಶೀಲನೆಯನ್ನು ತಾಳುವ ವಾದಗಳನ್ನು ರೂಪಿಸುವುದು. ಫಸ್ಟ್ ಪ್ರೂಫ್ ಮುಂತಾದ ಅತ್ಯಾಧುನಿಕ ಸವಾಲುಗಳು, ಸರಿಯಾದುದನ್ನು ಪರಿಶೀಲಿಸುವುದು ಕಷ್ಟಸಾಧ್ಯವಾಗಿರುವ ಮತ್ತು ವೈಫಲ್ಯ ಮಾದರಿಗಳು ಮಾಹಿತಿ ನೀಡುವಂತಹ ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿ ಆ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ತೀವ್ರ ಪರೀಕ್ಷೆಗೆ ಒಳಪಡಿಸಲು ನಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತವೆ.
“ನಾವು ಪ್ರಸ್ತುತ ಹೊಸ ಮಾಡೆಲ್ ಅನ್ನು ತರಬೇತಿ ಮಾಡುತ್ತಿದ್ದೇವೆ, ಇದರ ಪ್ರಮುಖ ಗಮನ ಅದರ ಚಿಂತನೆಯಲ್ಲಿನ ಕಟ್ಟುನಿಟ್ಟಿನ ಮಟ್ಟವನ್ನು ಹೆಚ್ಚಿಸುವುದರ ಮೇಲೆ ಇದೆ. ಗುರಿಯೆಂದರೆ ಮಾಡೆಲ್ ಅನೇಕ ಗಂಟೆಗಳ ಕಾಲ ನಿರಂತರವಾಗಿ ಯೋಚಿಸಬೇಕು ಮತ್ತು ತನ್ನ ತೀರ್ಮಾನಗಳಲ್ಲಿ ಅತ್ಯಂತ ಆತ್ಮವಿಶ್ವಾಸದಿಂದ ಉಳಿಯಬೇಕು. ಫಸ್ಟ್ ಪ್ರೂಫ್ ಸಮಸ್ಯೆಗಳನ್ನು ಘೋಷಿಸಿದಾಗ, ಅದು ಪರಿಪೂರ್ಣ ಪರೀಕ್ಷಾ ವೇದಿಕೆಯಂತೆ ತೋಚಿತು, ಆದ್ದರಿಂದ ವಾರಾಂತ್ಯದಲ್ಲಿ ನಾನು ಅದನ್ನು ಪ್ರಯತ್ನಿಸಲು ಮುಂದಾದೆ. ಈಗಾಗಲೇ ಅದು ಎರಡು ಸಮಸ್ಯೆಗಳನ್ನು (#9 ಮತ್ತು #10) ಪರಿಹರಿಸಿತ್ತು. ತರಬೇತಿ ಪಡೆಯುತ್ತಿದ್ದಂತೆ, ಅದು ಕ್ರಮೇಣ ಹೆಚ್ಚು ಸಮರ್ಥವಾಗುತ್ತಾ ಹೋಯಿತು, ಕೊನೆಗೆ—ನಮ್ಮ ಅಂದಾಜಿನ ಪ್ರಕಾರ—ಕನಿಷ್ಠ ಇನ್ನೂ ಮೂರು ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಿತು. ನಾವು ವಿಶೇಷವಾಗಿ ಸಂತೋಷಪಟ್ಟೆವು, #6 ಅನ್ನು ಅದು ಪರಿಹರಿಸಿದಾಗ ಮತ್ತು ನಂತರ, ಎರಡು ದಿನಗಳ ಬಳಿಕ, #4 ಅನ್ನು ಪರಿಹರಿಸಿದಾಗ, ಏಕೆಂದರೆ ಆ ಸಮಸ್ಯೆಗಳು ನಮ್ಮಲ್ಲಿ ಅನೇಕರಿಗೆ ಪರಿಚಿತವಾಗಿರುವ ಕ್ಷೇತ್ರಗಳಿಂದ ಬಂದಿದ್ದವು. ಮಾಡೆಲ್ ದಿನದಿಂದ ದಿನಕ್ಕೆ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚು ಬುದ್ಧಿವಂತವಾಗುತ್ತಿರುವುದನ್ನು ನೋಡುವುದು ನಿಜಕ್ಕೂ ಅದ್ಭುತವಾಗಿದೆ.
– ಜೇಮ್ಸ್ ಆರ್. ಲೀ (OpenAI ಸಂಶೋಧಕ, ರೀಜನಿಂಗ್)
ನಾವು ಸೀಮಿತ ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆಯೊಂದಿಗೆ ಮಾಡೆಲ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿದ್ದೇವೆ. ಮಾಡೆಲ್ ತರಬೇತಿ ಸಮಯದಲ್ಲಿ ಆವೃತ್ತಿಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್ ಮಾಡುವಾಗ, ಹಿಂದಿನ ಪ್ರಯತ್ನಗಳಲ್ಲಿ ಫಲಪ್ರದವೆಂದು ಕಂಡ ಮರುಪ್ರಯತ್ನ ಕಾರ್ಯತಂತ್ರಗಳನ್ನು ನಾವು ಕೆಲವೊಮ್ಮೆ ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ. ಕೆಲವು ಪ್ರಯತ್ನಗಳಿಗಾಗಿ, ತಜ್ಞರ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಪಡೆದ ನಂತರ, ರೀಜನಿಂಗ್ ಅನ್ನು ಪರಿಶೀಲಿಸಲು ಸುಲಭವಾಗುವಂತೆ ಮಾಡಲು, ನಾವು ಸಾಬೀತಿನ ಕೆಲವು ಭಾಗಗಳನ್ನು ವಿಸ್ತರಿಸಲು ಅಥವಾ ಸ್ಪಷ್ಟಪಡಿಸಲು ಮಾಡೆಲ್ಗೆ ಕೇಳಿದ್ದೇವೆ. ಪರಿಶೀಲನೆ, ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಮತ್ತು ಶೈಲಿಗಾಗಿ ಈ ಮಾಡೆಲ್ ಮತ್ತು ChatGPT ನಡುವೆ ಹಿಂದುಮುಂದಿನ ಸಂಭಾಷಣೆಯನ್ನು ಸಹ ನಾವು ಸುಗಮಗೊಳಿಸಿದ್ದೇವೆ. ಕೆಲವು ಸಮಸ್ಯೆಗಳಿಗೆ, ಮಾನವ ತೀರ್ಮಾನದ ಆಧಾರದ ಮೇಲೆ ಆಯ್ಕೆಮಾಡಿದ ಕೆಲವು ಪ್ರಯತ್ನಗಳಲ್ಲಿ ಅತ್ಯುತ್ತಮವನ್ನು ನಾವು ಪ್ರಸ್ತುತಪಡಿಸುತ್ತೇವೆ. ಇದು ವೇಗವಾದ ಸ್ಪ್ರಿಂಟ್ ಆಗಿತ್ತು ಮತ್ತು ಸರಿಯಾಗಿ ನಿಯಂತ್ರಿತ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ನಾವು ಬಯಸುವಂತೆ ನಮ್ಮ ಪ್ರಕ್ರಿಯೆ ಸ್ವಚ್ಛವಾಗಿರಲಿಲ್ಲ. ಭವಿಷ್ಯದ ಪುನರಾವರ್ತನೆಗಳಿಗಾಗಿ ಹೆಚ್ಚು ಕಠಿಣ ಪ್ರಯೋಗ ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಚೌಕಟ್ಟಿನ ಬಗ್ಗೆ ಫಸ್ಟ್ ಪ್ರೂಫ್ ಆಯೋಜಕರೊಂದಿಗೆ ಚರ್ಚೆಗಳನ್ನು ನಡೆಸಲು ನಾವು ಎದುರು ನೋಡುತ್ತಿದ್ದೇವೆ.
ಈ ಕೆಲಸವು ಗಣಿತ ಮತ್ತು ವಿಜ್ಞಾನ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಅತ್ಯಾಧುನಿಕ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳ ಹಿಂದಿನ ಫಲಿತಾಂಶಗಳ ಮೇಲೆ ಆಧಾರಿತವಾಗಿದೆ. ಜುಲೈ 2025ರಲ್ಲಿ, ನಾವು ಸಾಮಾನ್ಯ-ಉದ್ದೇಶದ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ನೊಂದಿಗೆ (35/42 ಅಂಕಗಳು) ಅಂತರರಾಷ್ಟ್ರೀಯ ಗಣಿತ ಓಲಿಂಪಿಯಾಡ್ನಲ್ಲಿ ಚಿನ್ನದ ಪದಕ ಮಟ್ಟದ ಪ್ರದರ್ಶನ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ತಲುಪಿದೆವು. ನವೆಂಬರ್ 2025 ರಲ್ಲಿ, ನಾವು “GPT‑5 ನೊಂದಿಗೆ ವಿಜ್ಞಾನವನ್ನು ವೇಗಗೊಳಿಸುವ ಆರಂಭಿಕ ಪ್ರಯೋಗಗಳು” ಎಂಬ ಕೇಸ್ ಸ್ಟಡಿಗಳ ಸಮೂಹವನ್ನು ಹಂಚಿಕೊಂಡೆವು, ಇದು GPT‑5 ಸಂಶೋಧಕರಿಗೆ ಗಣಿತ, ಭೌತಶಾಸ್ತ್ರ, ಜೀವಶಾಸ್ತ್ರ ಮತ್ತು ಇತರ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಸ್ಪಷ್ಟ ಪ್ರಗತಿಯನ್ನು ಸಾಧಿಸಲು ಹೇಗೆ ಸಹಾಯ ಮಾಡಿತು ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ, ಜೊತೆಗೆ ನಾವು ಗಮನಿಸಿದ ಮಿತಿಗಳನ್ನು ಸಹ ಒಳಗೊಂಡಿದೆ. ಮತ್ತು ಇತ್ತೀಚೆಗೆ, GPT‑5.2 ಗ್ಲೂಯಾನ್-ಆಂಪ್ಲಿಟ್ಯೂಡ್ ಸೂತ್ರಕ್ಕಾಗಿ ಒಂದು ಅಭ್ಯರ್ಥಿ ಅಭಿವ್ಯಕ್ತಿಯನ್ನು ಪ್ರಸ್ತಾಪಿಸಿದ ಭೌತಶಾಸ್ತ್ರ ಸಹಯೋಗ ವನ್ನು ನಾವು ವರದಿ ಮಾಡಿದ್ದೇವೆ; ನಂತರ ಅದನ್ನು ಆಂತರಿಕ ಮಾಡೆಲ್ ಅಧಿಕೃತವಾಗಿ ಸಾಬೀತುಪಡಿಸಿತು ಮತ್ತು ಲೇಖಕರು ದೃಢೀಕರಿಸಿದರು.
ಸಮುದಾಯದೊಂದಿಗೆ ಸಂಶೋಧನಾ-ಮಟ್ಟದ ರೀಜನಿಂಗ್ ಮೌಲ್ಯಮಾಪನದ ಕುರಿತು ಆಳವಾದ ತೊಡಗಿಸಿಕೊಳ್ಳುವಿಕೆಯನ್ನು, ಈ ಪ್ರಯತ್ನಗಳ ಬಗ್ಗೆ ತಜ್ಞರ ಪ್ರತಿಕ್ರಿಯೆ ಸೇರಿದಂತೆ, ನಾವು ಎದುರುನೋಡುತ್ತಿದ್ದೇವೆ. ಭವಿಷ್ಯದ ಸಾರ್ವಜನಿಕ ಮಾಡೆಲ್ಗಳಲ್ಲಿ ಈ ಹೊಸ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಲಭ್ಯವಾಗಿಸಲು ನಾವು ಉತ್ಸುಕರಾಗಿದ್ದೇವೆ.


