ಮುಖ್ಯ ವಿಷಯಕ್ಕೆ ನೇರವಾಗಿ ಹೋಗಿ
OpenAI

ಆಗಸ್ಟ್ 7, 2025

ಉತ್ಪನ್ನ

ಪರಿಚಯಿಸುತ್ತಿದ್ದೇವೆ ಡೆವಲಪರ್‌ಗಳಿಗಾಗಿ GPT‑5

ಕೋಡಿಂಗ್ ಮತ್ತು ಏಜೆಂಟಿಕ್ ಕಾರ್ಯ‌ಗಳಿಗೆ ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್.

ಲೋಡ್ ಆಗುತ್ತಿದೆ…

ಪರಿಚಯ

ಇಂದು ನಾವು ನಮ್ಮ API ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ನಲ್ಲಿ GPT‑5 ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿದ್ದೇವೆ—ಇದು ಕೋಡಿಂಗ್ ಮತ್ತು ಏಜೆಂಟಿಕ್ ಕಾರ್ಯ‌ಗಳಿಗೆ ಇದುವರೆಗೆ ನಮ್ಮ ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್ ಆಗಿದೆ.

GPT‑5 ಪ್ರಮುಖ ಕೋಡಿಂಗ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ ಅತ್ಯಾಧುನಿಕ (SOTA) ಮಟ್ಟದಲ್ಲಿದೆ—SWE-ಬೆಂಚ್ ವೆರಿಫೈಡ್‌ನಲ್ಲಿ 74.9% ಮತ್ತು Aider polyglot ನಲ್ಲಿ 88% ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ. ನಾವು GPT‑5 ಗೆ ನಿಜವಾದ ಕೋಡಿಂಗ್ ಸಹಯೋಗಿಯಾಗಿ ತರಬೇತಿ ನೀಡಿದ್ದೇವೆ. ಇದು ಉನ್ನತ ಗುಣಮಟ್ಟದ ಕೋಡ್ ರಚನೆ ಮತ್ತು ಬಗ್‌ಗಳನ್ನು ಸರಿಪಡಿಸುವುದು, ಕೋಡ್ ಸಂಪಾದಿಸುವುದು, ಮತ್ತು ಸಂಕೀರ್ಣ ಕೋಡ್‌ಬೇಸ್‌ಗಳ ಬಗ್ಗೆ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸುವಂತಹ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸುವಲ್ಲಿ ಅತ್ಯುತ್ತಮವಾಗಿದೆ. ಮಾಡೆಲ್ ಅನ್ನು ಮುನ್ನಡೆಸಬಹುದು ಮತ್ತು ಸಹಯೋಗಾತ್ಮಕವಾಗಿದೆ—ಇದು ಹೆಚ್ಚಿನ ನಿಖರತೆಯೊಂದಿಗೆ ಬಹಳ ವಿವರವಾದ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಬಹುದು ಮತ್ತು ಟೂಲ್ ಕಾಲ್‌ಗಳ ಮೊದಲು ಮತ್ತು ನಡುವೆ ಅದರ ಕ್ರಮಗಳ ಬಗ್ಗೆ ಮುಂಗಡ ವಿವರಣೆಗಳನ್ನು ಒದಗಿಸಬಹುದು.  ಈ ಮಾಡೆಲ್ ಫ್ರಂಟ್‌ಎಂಡ್ ಕೋಡಿಂಗ್‌ನಲ್ಲಿ ಕೂಡ ಶ್ರೇಷ್ಠವಾಗಿದೆ, ಆಂತರಿಕ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ OpenAI o3 ಅನ್ನು ಫ್ರಂಟ್‌ಎಂಡ್ ವೆಬ್ ಡೆವಲಪ್‌ಮೆಂಟ್‌ನಲ್ಲಿ 70% ಸಂದರ್ಭಗಳಲ್ಲಿ ಮೀರಿಸಿದೆ.

ನಾವು ಸ್ಟಾರ್ಟಪ್‌ಗಳು ಮತ್ತು ಎಂಟರ್‌ಪ್ರೈಸಸ್‌ಗಳ ಆರಂಭಿಕ ಟೆಸ್ಟರ್‌ಗಳ ಜೊತೆ ಸಹಕಾರದಲ್ಲಿ ನೈಜ ಜಗತ್ತಿನ ಕೋಡಿಂಗ್ ಕಾರ್ಯಗಳ ಮೇಲೆ GPT‑5 ಅನ್ನು ತರಬೇತಿ ನೀಡಿದ್ದೇವೆ. GPT‑5 "[ಅವರು] ಬಳಸಿದ ಅತ್ಯಂತ ಬುದ್ಧಿವಂತ ಮಾಡೆಲ್" ಮತ್ತು "ಗಮನಾರ್ಹವಾಗಿ ಬುದ್ಧಿವಂತ, ಮುನ್ನಡೆಸಲು ಸುಲಭ, ಮತ್ತು ಇತರ ಮಾಡೆಲ್‌ಗಳಲ್ಲಿ [ಅವರು] ಕಾಣದ ವ್ಯಕ್ತಿತ್ವವನ್ನು ಕೂಡ ಹೊಂದಿದೆ"ಎಂದು Cursor ಸಂಸ್ಥೆಯವರು ಹೇಳಿದ್ದಾರೆ. Windsurf ಅವರ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ GPT‑5 SOTA ಆಗಿದ್ದು, "ಇತರ ಮುಂಚೂಣಿ ಮಾಡೆಲ್‌ಗಳಿಗಿಂತ ಸಾಧನದ ದೋಷದ ಪ್ರಮಾಣ ಅರ್ಧವಾಗಿದೆ" ಎಂದು ಹೇಳಿದ್ದಾರೆ. “ಇದು ಅತ್ಯುತ್ತಮ ಫ್ರಂಟ್‌ಎಂಡ್ AI ಮಾಡೆಲ್, ಸೌಂದರ್ಯ ಮತ್ತು ಕೋಡ್ ಗುಣಮಟ್ಟ ಎರಡರಲ್ಲೂ ಉನ್ನತ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ತಲುಪುತ್ತದೆ, ಇದನ್ನು ತನ್ನದೇ ಆದ ವರ್ಗದಲ್ಲಿ ಭಿನ್ನವಾಗಿ ನಿಲ್ಲುತ್ತದೆ” ಎಂದು Vercel ಸಂಸ್ಥೆಯವರು ಹೇಳಿದ್ದಾರೆ.

2 ತಿಂಗಳ ಹಿಂದಷ್ಟೇ ಬಿಡುಗಡೆ ಮಾಡಲಾಗಿರುವ ಟೂಲ್-ಕಾಲಿಂಗ್ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಆದ—τ2-ಬೆಂಚ್ ಟೆಲಿಕಾಂ (96.7%) ನಲ್ಲಿ SOTA ಫಲಿತಾಂಶಗಳನ್ನು ಸಾಧಿಸುವ ಮೂಲಕ, GPT‑5 ದೀರ್ಘಕಾಲದವರೆಗೆ ಚಾಲನೆಯಲ್ಲಿರುವ ಏಜೆಂಟಿಕ್ ಕಾರ್ಯಗಳಲ್ಲಿ ಸಹ ಮೆಲುಗೈ ಸಾಧಿಸಿದೆ. GPT‑5 ರ ಸುಧಾರಿತ ಟೂಲ್ ಇಂಟೆಲಿಜೆನ್ಸ್ ಇದಕ್ಕೆ ಕ್ರಮಬದ್ಧವಾಗಿ ಮತ್ತು ಸಮಾಂತರವಾಗಿ ಹಲವು ಟೂಲ್ ಕಾಲ್‌ಗಳನ್ನು ನಿಖರವಾಗಿ ಜೋಡಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ—ಮಧ್ಯದಲ್ಲಿ ದಾರಿ ತಪ್ಪದೆ, ಸಂಕೀರ್ಣ ನೈಜ ಕಾರ್ಯಗಳನ್ನು ಆರಂಭದಿಂದ ಅಂತ್ಯವರೆಗೆ ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸಲು ಇದು ಬಹಳ ಉತ್ತಮವಾಗಿದೆ. ಇದು ಟೂಲ್ ಸೂಚನೆಗಳನ್ನು ಇನ್ನಷ್ಟು ನಿಖರವಾಗಿ ಅನುಸರಿಸುತ್ತದೆ, ಟೂಲ್ ದೋಷಗಳನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ, ಮತ್ತು ದೀರ್ಘ-ಸಂದರ್ಭದ ವಿಷಯಗಳನ್ನು ರಿಟ್ರೀವ್ ಮಾಡುವುದರಲ್ಲಿ ಶ್ರೇಷ್ಠವಾಗಿದೆ. GPT‑5 “ಒಂದೇ ಮಾಡೆಲ್‌ನಿಂದ [ಅವರ] ಆಂತರಿಕ ಮಾನದಂಡಗಳಲ್ಲಿ ಇದುವರೆಗೆ [ಅವರು] ಕಂಡ ಅತ್ಯುತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸಾಧಿಸಿದೆ” ಎಂದು Manus ಸಂಸ್ಥೆಯವರು ಹೇಳುತ್ತಾರೆ. “[ಮಾಡೆಲ್‌ಗಳ] ವೇಗದ ಪ್ರತಿಕ್ರಿಯೆಗಳು, ವಿಶೇಷವಾಗಿ ಕಡಿಮೆ ತಾರ್ಕಿಕತೆಯ ಮೋಡ್‌ನಲ್ಲಿ, ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ನೀವು ಒಂದೇ ಬಾರಿ ಪರಿಹರಿಸುವ ಅಗತ್ಯವಿದ್ದಾಗ GPT‑5 ಅನ್ನು ಆದರ್ಶ ಮಾಡೆಲ್ ಆಗಿ ಮಾಡುತ್ತದೆ” ಎಂದು Notion ಹೇಳುತ್ತಾರೆ. “ನಿಜವಾಗಿಯೂ [GPT‑5] ಅನ್ನು ಪ್ರತ್ಯೇಕಿಸುವುದು ಅದರ ತಾರ್ಕಿಕತೆಯ ಆಳ: ನೈಜ ವಿಷಯ-ವಿಷಯದ ತಿಳುವಳಿಕೆಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವ ಸೂಕ್ಷ್ಮ, ಬಹು-ಪದರಿತ ಉತ್ತರಗಳು” ಎಂದುInditex ಅಭಿಪ್ರಾಯ ವ್ಯಕ್ತಪಡಿಸಿದೆ.

ಡೆವಲಪರ್‌ಗಳಿಗೆ ಮಾದರಿಯ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಹೆಚ್ಚು ನಿಯಂತ್ರಿಸಲು ಅವಕಾಶ ನೀಡಲು ನಾವು ನಮ್ಮ API ಯಲ್ಲಿ ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಪರಿಚಯಿಸುತ್ತಿದ್ದೇವೆ. GPT‑5 ಹೊಸ verbosity ಪ್ಯಾರಾಮೀಟರ್ ಅನ್ನು (ಮೌಲ್ಯಗಳು: ಕಡಿಮೆ, ಮಧ್ಯಮ, ಅಧಿಕ) ಬೆಂಬಲಿಸುತ್ತದೆ, ಇದು ಉತ್ತರಗಳು ಸಂಕ್ಷಿಪ್ತ ಮತ್ತು ಸ್ಪಷ್ಟವಾಗಿರಬೇಕೇ ಅಥವಾ ವಿಸ್ತೃತ ಮತ್ತು ಸಮಗ್ರವಾಗಿರಬೇಕೇ ಎಂಬುದನ್ನು ನಿಯಂತ್ರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. GPT‑5 ರ ತಾರ್ಕಿಕತೆಯ_ಪ್ರಯತ್ನ ನಿಯತಾಂಕವು ಈಗ ಮೊದಲು ವ್ಯಾಪಕವಾದ ತಾರ್ಕಿಕತೆಯಿಲ್ಲದೆ, ವೇಗವಾಗಿ ಉತ್ತರಗಳನ್ನು ಮರಳಿ ಪಡೆಯಲು ಕನಿಷ್ಠ ಮೌಲ್ಯವನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ನಾವು ಹೊಸ ಟೂಲ್ ವಿಧ—ಕಸ್ಟಮ್ ಟೂಲ್‌ಗಳನ್ನು—ಸೇರಿಸಿದ್ದೇವೆ, ಇದರಿಂದ GPT‑5 JSON ಬದಲು ಪ್ಲೇನ್‌ಟೆಕ್ಸ್ಟ್ ಮೂಲಕ ಟೂಲ್‌ಗಳನ್ನು ಕಾಲ್ ಮಾಡಬಹುದು. ಕಸ್ಟಮ್ ಟೂಲ್‌ಗಳು ಡೆವಲಪರ್ ನೀಡಿದ ಸಂದರ್ಭ-ಮುಕ್ತ ವ್ಯಾಕರಣಗಳ ಮೂಲಕ ನಿರ್ಬಂಧಿಸಲು ಸಹ ಬೆಂಬಲಿಸುತ್ತವೆ.

ಡೆವಲಪರ್‌ಗಳಿಗೆ ಪ್ರದರ್ಶನ, ವೆಚ್ಚ ಮತ್ತು ಲ್ಯಾಟೆನ್ಸಿ ನಡುವೆ ಹೆಚ್ಚು ನಮ್ಯತೆಯನ್ನು ಒದಗಿಸಲು—ನಾವು API ಯಲ್ಲಿ GPT‑5 ಅನ್ನು ಮೂರು ಗಾತ್ರಗಳಲ್ಲಿ ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿದ್ದೇವೆ—gpt-5, gpt-5-mini, ಮತ್ತು gpt-5-nano ChatGPT ಯಲ್ಲಿ GPT‑5 ತಾರ್ಕಿಕತೆಯ, ತಾರ್ಕಿಕತೆಯಲ್ಲದ ಮತ್ತು ರೌಟರ್ ಮಾಡೆಲ್‌ಗಳ ವ್ಯವಸ್ಥೆಯಾಗಿದ್ದರೆ, API ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ನಲ್ಲಿರುವ GPT‑5 ChatGPT ಯ ಗರಿಷ್ಠ ಪ್ರದರ್ಶನವನ್ನು ಒದಗಿಸುವ ತಾರ್ಕಿಕತೆಯ ಮಾಡೆಲ್ ಆಗಿದೆ. ಗಮನಾರ್ಹವಾಗಿ, ಕನಿಷ್ಠ ರೀಸನಿಂಗ್ ಹೊಂದಿರುವ GPT‑5, ChatGPT ಯ ನಾನ್-ರೀಸನಿಂಗ್ ಮಾಡೆಲ್‌ಗಿಂತ ವಿಭಿನ್ನವಾಗಿದ್ದು, ಡೆವಲಪರ್‌ಗಳಿಗೆ ಉತ್ತಮವಾಗಿ ಟ್ಯೂನ್ ಮಾಡಲಾಗಿದೆ. ChatGPT ಯಲ್ಲಿ ಬಳಸುವ ನಾನ್-ರೀಸನಿಂಗ್ ಮಾಡೆಲ್ gpt-5-ಚಾಟ್-ಇತ್ತೀಚಿನದು ರೂಪದಲ್ಲಿ ಲಭ್ಯವಿದೆ.

ChatGPT ಯಲ್ಲಿ GPT‑5 ಬಗ್ಗೆ ಓದಲು ಮತ್ತು ಇತರ ChatGPT ಸುಧಾರಣೆಗಳ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳಲು, ನಮ್ಮ ಸಂಶೋಧನಾ ಬ್ಲಾಗ್ ನೋಡಿ. ಉದ್ಯಮಗಳು GPT‑5 ಅನ್ನು ಬಳಸಲು ಹೇಗೆ ಉತ್ಸಾಹಗೊಂಡಿವೆ ಎಂಬುದರ ಕುರಿತು ಇನ್ನಷ್ಟು ತಿಳಿಯಲು ನಮ್ಮ ಎಂಟರ್‌ಪ್ರೈಸ್ ಬ್ಲಾಗ್ ನೋಡಿ.

ಕೋಡಿಂಗ್

GPT‑5 ನಮ್ಮಿಂದ ಇದುವರೆಗೆ ಬಿಡುಗಡೆಗೊಂಡ ಅತ್ಯಂತ ಶಕ್ತಿಯುತ ಕೋಡಿಂಗ್ ಮಾಡೆಲ್ ಆಗಿದೆ. ಇದು ಕೋಡಿಂಗ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಮತ್ತು ನೈಜ ಬಳಕೆ ಪ್ರಕರಣಗಳಲ್ಲಿ o3 ಅನ್ನು ಮೀರಿಸುತ್ತದೆ, ಮತ್ತು Cursor, Windsurf, GitHub Copilot ಮತ್ತು Codex CLI ಮುಂತಾದ ಏಜೆಂಟಿಕ್ ಕೋಡಿಂಗ್ ಉತ್ಪನ್ನಗಳಲ್ಲಿ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡುವಂತೆ ಫೈನ್-ಟ್ಯೂನ್ ಮಾಡಲಾಗಿದೆ. GPT‑5 ನಮ್ಮ ಆಲ್ಫಾ ಪರೀಕ್ಷಕರನ್ನು ಪ್ರಭಾವಿತಗೊಳಿಸಿತು, ಅವರ ಅನೇಕ ಖಾಸಗಿ ಆಂತರಿಕ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ ದಾಖಲೆಗಳನ್ನು ಸ್ಥಾಪಿಸಿತು. 

ನೈಜ ಕೋಡಿಂಗ್ ಕಾರ್ಯ‌ಗಳಿಗಾಗಿ GPT‑5 ಕುರಿತ ಮೊದಲ ಪ್ರತಿಕ್ರಿಯೆಗಳು

“GPT-5 ನಾವು ಬಳಸಿದ ಅತ್ಯಂತ ಬುದ್ಧಿವಂತ ಕೋಡಿಂಗ್ ಮಾಡೆಲ್ ಆಗಿದೆ. ನಮ್ಮ ತಂಡವು GPT-5 ಅನ್ನು ಅಸಾಧಾರಣವಾಗಿ ಬುದ್ಧಿವಂತ, ಸುಲಭವಾಗಿ ನಿಯಂತ್ರಿಸಬಹುದಾದ, ಮತ್ತು ಇತರ ಯಾವುದೇ ಮಾಡೆಲ್‌ಗಳಲ್ಲಿ ಕಾಣದ ವ್ಯಕ್ತಿತ್ವ ಹೊಂದಿರುವುದಾಗಿ ಗುರುತಿಸಿದೆ. ಇದು ಕಷ್ಟವಾದ, ಆಳದಲ್ಲಿ ಅಡಗಿರುವ ದೋಷಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುವುದಷ್ಟೇ ಅಲ್ಲದೆ, ದೀರ್ಘ, ಬಹು-ಟರ್ನ್ ಬ್ಯಾಕ್‌ಗ್ರೌಂಡ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ನಡೆಸಿ ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಬಲ್ಲದು—ಇವು ಹಿಂದಿನ ಮಾಡೆಲ್‌ಗಳನ್ನು ಸ್ಥಗಿತಗೊಳಿಸುವಂತಾದ ಸಮಸ್ಯೆಗಳಾಗಿದ್ದವು. ಇದು ಈಗ ನಮ್ಮ ಪ್ರತಿದಿನದ ಸಹಾಯಕನಾಗಿದೆ—ಸ್ಕೋಪಿಂಗ್ ಮತ್ತು PR ಪ್ಲ್ಯಾನಿಂಗ್‌ನಿಂದ ಹಿಡಿದು ಎಂಡ್-ಟು-ಎಂಡ್ ಬಿಲ್ಡ್‌ಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುವ ತನಕ.”
ಮೈಕೆಲ್ ಟ್ರುಯೆಲ್, ಸಹ-ಸ್ಥಾಪಕ ಮತ್ತು CEO, Cursor

ನೈಜ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳ ಆಧಾರದ ಮೇಲೆ ನಡೆಸಲಾದ SWE-ಬೆಂಚ್ ವೆರಿಫೈಡ್ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ, GPT‑5 74.9% ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ, ಇದು o3 ಯ 69.1% ಅಂಕಗಳಿಗಿಂತ ಹೆಚ್ಚಾಗಿದೆ. ಗಮನಾರ್ಹವಾಗಿ, GPT‑5 ಹೆಚ್ಚಿನ ದಕ್ಷತೆ ಮತ್ತು ವೇಗದೊಂದಿಗೆ ತನ್ನ ಉನ್ನತ ಅಂಕಗಳನ್ನು ಸಾಧಿಸಿದೆ: o3 ಯ ಅಧಿಕ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನಕ್ಕೆ ಹೋಲಿಸಿದರೆ, GPT‑5 22% ಕಡಿಮೆ ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳನ್ನು ಮತ್ತು 45% ಕಡಿಮೆ ಟೂಲ್ ಕಾಲ್‌ಗಳನ್ನು ಬಳಸುತ್ತದೆ.

SWE-ಬೆಂಚ್ ವೆರಿಫೈಡ್ ನಲ್ಲಿ, ಮಾಡೆಲ್‌ಗೆ ಕೋಡ್ ರೆಪೊಸಿಟರಿ ಮತ್ತು ಸಮಸ್ಯೆಯ ವಿವರಣೆ ನೀಡಲಾಗುತ್ತದೆ, ಮತ್ತು ಆ ಸಮಸ್ಯೆಯನ್ನು ಬಗೆಹರಿಸಲು ಪ್ಯಾಚ್ ರಚಿಸಬೇಕು. ಪಠ್ಯ ಲೇಬಲ್‌ಗಳು ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನವನ್ನು ಸೂಚಿಸುತ್ತವೆ. 500 ಸಮಸ್ಯೆಗಳಲ್ಲಿ 23 ಸಮಸ್ಯೆಗಳ ಪರಿಹಾರಗಳು ನಮ್ಮ ಮೂಲಸೌಕರ್ಯದಲ್ಲಿ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಪಾಸ್ ಆಗದ ಕಾರಣ ಅವುಗಳನ್ನು ನಮ್ಮ ಸ್ಕೋರ್‌ಗಳು ಹೊರತುಪಡಿಸುತ್ತವೆ. GPT‑5 ಗೆ ಪರಿಹಾರಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಶೀಲಿಸುವುದನ್ನು ಒತ್ತಿ ಹೇಳುವ ಚಿಕ್ಕ ಪ್ರಾಂಪ್ಟ್ ನೀಡಲಾಯಿತು; ಅದೇ ಪ್ರಾಂಪ್ಟ್ o3 ಗೆ ಪ್ರಯೋಜನಕಾರಿಯಾಗಲಿಲ್ಲ.

ಕೋಡ್ ಎಡಿಟಿಂಗ್‌ಗಾಗಿ ಇರುವ Aider polyglot ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ, GPT‑5 88% ಅಂಕಗಳ ಹೊಸ ದಾಖಲೆಯನ್ನು ನಿರ್ಮಿಸಿದೆ—o3 ಗೆ ಹೋಲಿಸಿದರೆ ದೋಷದ ದರದಲ್ಲಿ ಮೂರನೇ ಭಾಗದಷ್ಟು ಇಳಿಕೆ ಕಂಡುಬಂದಿದೆ.

Aider polygot(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) (diff) ನಲ್ಲಿ, ಮಾಡೆಲ್‌ಗೆ Exercism ನಿಂದ ಕೋಡಿಂಗ್ ಕಾರ್ಯವನ್ನು ನೀಡಲಾಗುತ್ತದೆ ಮತ್ತು ಅದರ ಪರಿಹಾರವನ್ನು ಕೋಡ್ ಡಿಫ್ ಆಗಿ ಬರೆಯಬೇಕು. ತಾರ್ಕಿಕತೆಯ ಮಾಡೆಲ್‌ಗಳನ್ನು ಅಧಿಕ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನದೊಂದಿಗೆ ಚಾಲನೆಗೊಳಿಸಲಾಯಿತು.

ನಾವು GPT‑5 ಅನ್ನು ವಿವಿಧ ಕೋಡ್‌ಬೇಸ್‌ಗಳನ್ನು ಆಳವಾಗಿ ವಿಶ್ಲೇಷಿಸುವುದರಲ್ಲಿ ಅತ್ಯುತ್ತಮವಾಗಿದೆ ಎಂದು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ, ಇದರಿಂದ ವಿವಿಧ ಭಾಗಗಳು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಅಥವಾ ಪರಸ್ಪರ ಸಂವಹನ ಮಾಡುತ್ತವೆ ಎಂಬ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಬಹುದು. OpenAI ನ ಬಲವರ್ಧನೆ ಕಲಿಕೆ ಸ್ಟ್ಯಾಕ್‌ನಷ್ಟು ಸಂಕೀರ್ಣವಾದ ಕೋಡ್‌ಬೇಸ್‌ನಲ್ಲಿ, ನಾವು GPT‑5 ನಮ್ಮ ಕೋಡ್ ಬಗ್ಗೆ ತಾರ್ಕಿಕವಾಗಿ ಯೋಚಿಸಲು ಮತ್ತು ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಎಂದು ಕಂಡುಕೊಳ್ಳುತ್ತಿದ್ದೇವೆ, ಇದು ನಮ್ಮ ದಿನನಿತ್ಯದ ಕೆಲಸವನ್ನು ವೇಗಗೊಳಿಸುತ್ತದೆ. 

ಫ್ರಂಟ್‌ಎಂಡ್ ಎಂಜಿನಿಯರಿಂಗ್

ವೆಬ್ ಆ್ಯಪ್‌ಗಳಿಗಾಗಿ ಫ್ರಂಟ್‌ಎಂಡ್ ಕೋಡ್ ರಚಿಸುವಾಗ, GPT‑5 ಹೆಚ್ಚು ಸೌಂದರ್ಯಾತ್ಮಕ, ಉತ್ಸಾಹಭರಿತ ಮತ್ತು ನಿಖರವಾಗಿದೆ. o3 ಮಾದರಿಯೊಡನೆ ಹೋಲಿಸಿದಾಗ, ನಮ್ಮ ಟೆಸ್ಟರ್‌ಗಳು 70% ಸಂದರ್ಭಗಳಲ್ಲಿ GPT‑5 ಅನ್ನು ಹೆಚ್ಚು ಇಷ್ಟಪಟ್ಟರು.

GPT‑5 ಒಂದೇ ಪ್ರಾಂಪ್ಟ್‌ನಿಂದ ಏನು ಮಾಡಬಲ್ಲದು ಎಂಬುದಕ್ಕೆ ಕೆಲವು ಆಸಕ್ತಿಕರ ಉದಾಹರಣೆಗಳು ಇಲ್ಲಿವೆ:

ಪ್ರಾಂಪ್ಟ್: ಕಾಫಿ ಉದ್ಯಮಿಗಳಿಗೆ $200/ತಿಂಗಳಿಗೆ ದರದ ಚಂದಾದಾರಿಕೆಯಲ್ಲಿ ಕಾಫಿ ರೋಸ್ಟ್ ಮಾಡುವುದಕ್ಕಾಗಿ ಹಾಗೂ ಅತ್ಯುತ್ತಮ ಎಸ್ಪ್ರೆಸೊ ತಯಾರಿಸುವುದಕ್ಕಾಗಿ ಬಾಡಿಗೆಗೆ ಸಲಕರಣೆಯನ್ನು ಮತ್ತು ತರಬೇತಿಯನ್ನು ಒದಗಿಸುವ ಸೇವೆಗಾಗಿ ದಯವಿಟ್ಟು ಸುಂದರವಾದ, ನೈಜತೆಯುಳ್ಳ ಲ್ಯಾಂಡಿಂಗ್ ಪುಟವನ್ನು ಜನರೇಟ್ ಮಾಡಿ. ತಂತ್ರಜ್ಞಾನದಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತಿರಬಹುದಾದ ಮತ್ತು ಸಾಕ್ಷರನಾಗಿರುವ, ಖರ್ಚು ಮಾಡಲು ಆದಾಯ ಹೊಂದಿರುವ ಮತ್ತು ಕಾಫಿಯ ಕಲೆ ಮತ್ತು ವಿಜ್ಞಾನದ ಕುರಿತು ಹುಮ್ಮಸ್ಸು ಹೊಂದಿರುವ ಬೇ ಏರಿಯಾದ ನಿವಾಸಿ ಮಧ್ಯ ವಯಸ್ಕ ವ್ಯಕ್ತಿ ಟಾರ್ಗೆಟ್ ಆಡಿಯೆನ್ಸ್ ಆಗಿದ್ದಾರೆ. 6 ತಿಂಗಳುಗಳ ಸೈನ್‌ಅಪ್‌ಗಾಗಿ ಪರಿವರ್ತನೆಗಾಗಿ ಆಪ್ಟಿಮೈಸ್ ಮಾಡಿ.

ನಮ್ಮ ಗ್ಯಾಲರಿಯಲ್ಲಿ GPT‑5 ರ ಹೆಚ್ಚಿನ ಉದಾಹರಣೆಗಳನ್ನು ಇಲ್ಲಿ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನೋಡಿ.

ಕೋಡಿಂಗ್ ಸಹಯೋಗ

GPT‑5 ಉತ್ತಮ ಸಹಯೋಗಿ, ವಿಶೇಷವಾಗಿ Cursor, Windsurf, GitHub Copilot ಮತ್ತು Codex CLI ಮುಂತಾದ ಏಜೆಂಟಿಕ್ ಕೋಡಿಂಗ್ ಪ್ರೊಡಕ್ಟ್‌ಗಳಲ್ಲಿ. ಇದು ಕೆಲಸ ಮಾಡುತ್ತಿರುವಾಗ, GPT‑5 ಟೂಲ್ ಕಾಲ್‌ಗಳ ಮಧ್ಯದಲ್ಲಿ ಪ್ಲ್ಯಾನ್‌ಗಳು, ಅಪ್‌ಡೇಟ್‌ಗಳು ಮತ್ತು ಸಾರಾಂಶಗಳನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡಬಹುದು. ಹಿಂದಿನ ಮಾಡೆಲ್‌ಗಳಿಗಿಂತ GPT‑5 ಹೆಚ್ಚು ಪೂರ್ವಭಾವಿಯಾಗಿದೆದೆ—ನಿಮ್ಮ ಅನುಮೋದನೆಗಾಗಿ ನಿಲ್ಲದೆ ಅಥವಾ ಹೆಚ್ಚು ಸಂಕೀರ್ಣತೆಯಿಂದ ಹೆದರದೆ ಉತ್ಸಾಹಭರಿತ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುತ್ತದೆ.

ಇಲ್ಲಿ GPT‑5 ಒಂದು ಸಂಕೀರ್ಣ ಕಾರ್ಯವನ್ನು (ಈ ಸಂದರ್ಭದಲ್ಲಿ, ರೆಸ್ಟೋರೆಂಟ್‌ಗಾಗಿ ವೆಬ್‌ಸೈಟ್ ರಚಿಸುವುದು) ಕೈಗೊಳ್ಳುವಾಗ ಹೇಗೆ ಕಾಣಬಹುದು ಎಂಬ ಉದಾಹರಣೆ ಇದೆ:

ಬಳಕೆದಾರರು ತಮ್ಮ ರೆಸ್ಟೊರಂಟ್‌ಗೆ ವೆಬ್‌ಸೈಟ್ ಬೇಡಿಕೆ ಇಟ್ಟ ನಂತರ, GPT‑5 ತ್ವರಿತ ಯೋಜನೆಯನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತದೆ, ಆ್ಯಪ್ ಅನ್ನು ಸ್ಕಾಫೋಲ್ಡ್ ಮಾಡುತ್ತದೆ, ಡಿಪೆಂಡೆನ್ಸಿಗಳನ್ನು ಇನ್‌ಸ್ಟಾಲ್ ಮಾಡುತ್ತದೆ, ಸೈಟ್ ವಿಷಯವನ್ನು ರಚಿಸುತ್ತದೆ, ಕಂಪೈಲೇಷನ್ ದೋಷಗಳಿಗಾಗಿ ಪರಿಶೀಲಿಸಲು ಬಿಲ್ಡ್ ಅನ್ನು ರನ್ ಮಾಡುತ್ತದೆ, ತನ್ನ ಕೆಲಸವನ್ನು ಸಾರಾಂಶಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಮುಂದಿನ ಸಾಧ್ಯವಾದ ಹಂತಗಳನ್ನು ಸೂಚಿಸುತ್ತದೆ. ನಿಮ್ಮ ನಿರೀಕ್ಷೆಯ ಸಮಯವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಈ ವೀಡಿಯೋ ~3x ವೇಗಗೊಳಿಸಲಾಗಿದೆ; ವೆಬ್‌ಸೈಟ್ ರಚಿಸಲು ಒಟ್ಟು ತೆಗೆದುಕೊಂಡ ಸಮಯ ಸರಿಸುಮಾರು ಮೂರು ನಿಮಿಷ.

ಏಜೆಂಟಿಕ್ ಕಾರ್ಯಗಳು

ಏಜೆಂಟಿಕ್ ಕೋಡಿಂಗ್‌ನ ಆಚೆಗೆ, ಸಾಮಾನ್ಯವಾಗಿ ಏಜೆಂಟಿಕ್ ಕಾರ್ಯಗಳಲ್ಲಿ GPT‑5 ಉತ್ತಮವಾಗಿದೆ. GPT‑5 ಸೂಚನೆ ಅನುಸರಣೆ (o3‑mini ಯಿಂದ ಶ್ರೇಣೀಕರಿಸಲ್ಪಟ್ಟಂತೆ Scale MultiChallenge ನಲ್ಲಿ 69.6%) ಮತ್ತು ಟೂಲ್ ಕಾಲಿಂಗ್ (τ2-ಬೆಂಚ್ ಟೆಲಿಕಾಂನಲ್ಲಿ 96.7%) ಮಾನದಂಡಗಳಲ್ಲಿ ಹೊಸ ದಾಖಲೆಗಳನ್ನು ಸ್ಥಾಪಿಸಿದೆ. ಸುಧಾರಿತ ಟೂಲ್ ಇಂಟೆಲಿಜೆನ್ಸ್ GPT‑5 ಗೆ ನೈಜ ಜಗತ್ತಿನ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಕ್ರಮಬದ್ಧ ಕ್ರಿಯೆಗಳನ್ನು ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಜೋಡಿಸಲು ಸಹಾಯಮಾಡುತ್ತದೆ.

ಏಜೆಂಟಿಕ್ ಕಾರ್ಯಗಳಿಗೆ GPT‑5 ಬಗ್ಗೆ ಮೊದಲ ಪ್ರತಿಕ್ರಿಯೆ

“GPT-5 ದೊಡ್ಡ ಸ್ಟೆಪ್ ಅಪ್ ಆಗಿದೆ. ಇದು ನಮ್ಮ ಆಂತರಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ ಒಂದು ಸಿಂಗಲ್ ಮಾಡೆಲ್‌ನಿಂದ ನಾವು ನೋಡಿದ ಅತ್ಯುತ್ತಮ ಪ್ರದರ್ಶನವನ್ನು ಸಾಧಿಸಿದೆ. ಕೋಡ್‌ನ ಒಂದೇ ಲೈನ್ ಟ್ಯೂನ್ ಮಾಡುವುದಕ್ಕೂ ಮುಂಚೆ ಅಥವಾ ಪ್ರಾಂಪ್ಟ್ ಟೇಲರ್ ಮಾಡುವುದಕ್ಕೂ ಮುಂಚೆಯೇ GPT-5 ವಿವಿಧ ಏಜೆಂಟಿಕ್ ಕಾರ್ಯ‌ಗಳಲ್ಲಿ ಅದ್ಭುತ ಸಾಧನೆ ಮಾಡಿತು. ಹೊಸ ಪ್ರಸ್ತಾವನೆಗಳು ಮತ್ತು ಟೂಲ್ ಬಳಕೆಯ ಮೇಲೆ ಹೆಚ್ಚು ನಿಖರ ನಿಯಂತ್ರಣವು ನಮ್ಮ ಏಜೆಂಟ್‌ಗಳ ಸ್ಥಿರತೆ ಮತ್ತು ನಿಯಂತ್ರಣ ಸಾಮರ್ಥ್ಯದಲ್ಲಿ ಮಹತ್ವದ ಪ್ರಗತಿಯನ್ನು ಸಾಧ್ಯಮಾಡಿತು.
ಯಿಚಾವ್ ‘ಪೀಕ್’ ಜಿ, ಸಹ-ಸ್ಥಾಪಕ ಮತ್ತು ಮುಖ್ಯ ವಿಜ್ಞಾನಿ, Manus

ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಲಾಗುತ್ತಿದೆ

GPT‑5 ತನ್ನ ಹಿಂದಿನ ಯಾವುದೇ ಮಾಡೆಲ್‌ಗಿಂತ ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುತ್ತದೆ, COLLIE, Scale MultiChallenge ಮತ್ತು ನಮ್ಮ ಆಂತರಿಕ ಸೂಚನೆ ಅನುಸರಿಸುವ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ ಉನ್ನತ ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ.

COLLIE(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ, ಮಾಡೆಲ್‌ಗಳು ವಿವಿಧ ನಿರ್ಬಂಧಗಳನ್ನು ಪೂರೈಸುವ ಪಠ್ಯವನ್ನು ಬರೆಯಬೇಕು. Scale MultiChallenge(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ, ಮಾಡೆಲ್‌ಗಳಿಗೆ ಹಿಂದಿನ ಸಂದೇಶಗಳಿಂದ ನಾಲ್ಕು ರೀತಿಯ ಮಾಹಿತಿಯನ್ನು ಸರಿಯಾಗಿ ಬಳಸಲು ಮಲ್ಟಿ-ಟರ್ನ್ ಸಂಭಾಷಣೆಗಳಲ್ಲಿ ಸವಾಲು ಹಾಕಲಾಗುತ್ತದೆ. ನಮ್ಮ ಅಂಕಗಳು o3‑mini ಅನ್ನು ಗ್ರೇಡರ್ ಆಗಿ ಬಳಸುವುದರಿಂದ ಲಭಿಸಿವೆ, ಇದು GPT‑4o ಗಿಂತ ಹೆಚ್ಚು ನಿಖರವಾಗಿತ್ತು. ನಮ್ಮ ಆಂತರಿಕ OpenAI API ಸೂಚನೆ-ಅನುಸರಣೆಯ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ, ಮಾಡೆಲ್‌ಗಳು ನೈಜ ಡೆವಲಪರ್ ಪ್ರತಿಕ್ರಿಯೆಗಳಿಂದ ಬಂದ ಕಠಿಣ ಸೂಚನೆಗಳನ್ನು ತಪ್ಪದೆ ಅನುಸರಿಸಬೇಕು. ತಾರ್ಕಿಕತೆಯ ಮಾಡೆಲ್‌ಗಳನ್ನು ಅಧಿಕ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನದೊಂದಿಗೆ ಚಾಲನೆಗೊಳಿಸಲಾಯಿತು.

ಟೂಲ್ ಕಾಲಿಂಗ್

ಡೆವಲಪರ್‌ಗಳಿಗೆ ಮಹತ್ವದ ರೀತಿಯಲ್ಲಿ ಟೂಲ್ ಕಾಲಿಂಗ್ ಸುಧಾರಿಸಲು ನಾವು ಹೆಚ್ಚು ಶ್ರಮಿಸಿದ್ದೇವೆ. GPT‑5 ಟೂಲ್ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುವುದರಲ್ಲಿ, ಟೂಲ್ ದೋಷಗಳನ್ನು ನಿರ್ವಹಿಸುವುದರಲ್ಲಿ, ಮತ್ತು ಕ್ರಮಬದ್ಧವಾಗಿ ಅಥವಾ ಪ್ಯಾರಲಲ್‌ನಲ್ಲಿ ಹಲವಾರು ಟೂಲ್ ಕಾಲ್‌ಗಳನ್ನು ಪ್ರೋಆ್ಯಕ್ಟಿವ್ ಆಗಿ ಮಾಡುವುದರಲ್ಲಿ ಹೆಚ್ಚು ಉತ್ತಮವಾಗಿದೆ. ಸೂಚನೆ ನೀಡಿದಾಗ, GPT‑5 ದೀರ್ಘಾವಧಿಯ ಏಜೆಂಟಿಕ್ ಕಾರ್ಯಗಳ ಸಮಯದಲ್ಲಿ ಬಳಕೆದಾರರಿಗೆ ಪ್ರಗತಿಯನ್ನು ತಿಳಿಸಲು ಟೂಲ್ ಕಾಲ್‌ಗಳ ಮೊದಲು ಮತ್ತು ಮಧ್ಯದಲ್ಲಿ ಪ್ರಸ್ತಾವನೆ ಸಂದೇಶಗಳನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡಬಹುದು.

ಎರಡು ತಿಂಗಳ ಹಿಂದೆ, τ2-ಬೆಂಚ್ ಟೆಲಿಕಾಂ ಅನ್ನು Sierra.ai ಸವಾಲಿನ ಸಾಧನ ಬಳಕೆಯ ಮಾನದಂಡವಾಗಿ ಪ್ರಕಟಿಸಿತು, ಇದು ಬಳಕೆದಾರರು ಬದಲಾಯಿಸಬಹುದಾದ ಪರಿಸರ ಸ್ಥಿತಿಯೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುವಾಗ ಭಾಷಾ ಮಾಡೆಲ್ ಕಾರ್ಯಕ್ಷಮತೆ ಹೇಗೆ ಗಮನಾರ್ಹವಾಗಿ ಕುಸಿಯುತ್ತದೆ ಎಂಬುದನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. ಅವರ ಪ್ರಕಟಣೆಯಲ್ಲಿ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), ಯಾವುದೇ ಮಾಡೆಲ್ 49% ಗಿಂತ ಹೆಚ್ಚು ಅಂಕಗಳನ್ನು ಗಳಿಸಲಿಲ್ಲ. GPT‑5 97% ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ.

τ2-ಬೆಂಚ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ, ಮಾಡೆಲ್‌ಗಳು ಗ್ರಾಹಕ ಸೇವಾ ಕಾರ್ಯವನ್ನು ಸಾಧಿಸಲು ಪರಿಕರಗಳನ್ನು ಬಳಸಬೇಕು, ಅಲ್ಲಿ ವಿಶ್ವದ ಸ್ಥಿತಿಯ ಮೇಲೆ ಸಂವಹನ ನಡೆಸಲು ಮತ್ತು ಕ್ರಮ ಕೈಗೊಳ್ಳಲು ಸಾಧ್ಯವಾಗುವ ಬಳಕೆದಾರರಿರಬಹುದು. ತಾರ್ಕಿಕತೆಯ ಮಾಡೆಲ್‌ಗಳನ್ನು ಅಧಿಕ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನದೊಂದಿಗೆ ಚಾಲನೆಗೊಳಿಸಲಾಯಿತು.

GPT‑5 ದೀರ್ಘ-ಸಂದರ್ಭದ ಕಾರ್ಯಕ್ಷಮತೆಯಲ್ಲಿ ಕೂಡ ದೊಡ್ಡ ಮಟ್ಟದ ಸುಧಾರಣೆಗಳನ್ನು ತೋರಿಸಿದೆ. OpenAI-MRCR, ದೀರ್ಘ-ಸಂದರ್ಭದ ಮಾಹಿತಿಯನ್ನು ಹಿಂಪಡೆಯುವ ಅಳತೆಯಲ್ಲಿ, GPT‑5 o3 ಮತ್ತು GPT‑4.1 ಅನ್ನು ಮೀರಿಸಿದೆ—ಮತ್ತು ಇನ್‌ಪುಟ್ ಉದ್ದ ಹೆಚ್ಚಾದಂತೆ ಈ ಅಂತರವೂ ಗಣನೀಯವಾಗಿ ವೃದ್ಧಿಸಿದೆ.

OpenAI-MRCR(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) (ಮಲ್ಟಿ-ರೌಂಡ್ ಕೋ-ರೆಫರೆನ್ಸ್ ರೆಸಲ್ಯೂಶನ್) ನಲ್ಲಿ, ಅನೇಕ ಒಂದೇ ರೀತಿಯ “ನೀಡಲ್” ಬಳಕೆದಾರ ವಿನಂತಿಗಳನ್ನು ಸಮಾನ ವಿನಂತಿಗಳು ಮತ್ತು ಪ್ರತಿಕ್ರಿಯೆಗಳ ದೀರ್ಘ “ಹೇಸ್ಟ್ಯಾಕ್” ಗಳಲ್ಲಿ ಸೇರಿಸಲಾಗುತ್ತದೆ, ಮತ್ತು ಮಾಡೆಲ್ ಅನ್ನು i-ನೇ ನೀಡಲ್‌ಗೆ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಪುನರುತ್ಪಾದಿಸಲು ಕೇಳಲಾಗುತ್ತದೆ. ಸರಾಸರಿ ಹೋಲಿಕೆ ಅನುಪಾತ ಎಂಬುದು ಮಾಡೆಲ್‌ನ ಉತ್ತರ ಮತ್ತು ಸರಿಯಾದ ಉತ್ತರಗಳ ನಡುವಿನ ಸರಾಸರಿ ಸ್ಟ್ರಿಂಗ್ ಹೊಂದಾಣಿಕೆಯ ಪ್ರಮಾಣವನ್ನು ಅಳೆಯುತ್ತದೆ. 256k ಗರಿಷ್ಠ ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಲ್ಲಿನ ಪಾಯಿಂಟ್‌ಗಳು 128k–256k ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳ ಸರಾಸರಿಯನ್ನು ಸೂಚಿಸುತ್ತವೆ, ಇತ್ಯಾದಿ. ಇಲ್ಲಿ, 256k ಎಂದರೆ 256 * 1,024 = 262,114 ಟೋಕನ್‌ಗಳು. ತಾರ್ಕಿಕತೆಯ ಮಾಡೆಲ್‌ಗಳನ್ನು ಅಧಿಕ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನದೊಂದಿಗೆ ಚಾಲನೆಗೊಳಿಸಲಾಯಿತು.

ದೀರ್ಘ-ಸಂದರ್ಭದ ಪ್ರಶ್ನೋತ್ತರಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಹೊಸ ಮಾನದಂಡವಾದ BrowseComp Long Context(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅನ್ನು ನಾವು ಓಪನ್ ಸೋರ್ಸ್ ಮಾಡುತ್ತಿದ್ದೇವೆ. ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ, ಮಾಡೆಲ್‌ಗೆ ಬಳಕೆದಾರರ ಪ್ರಶ್ನೆ ಮತ್ತು ಅದರ ಸಂಬಂಧಿತ ಉದ್ದವಾದ ಸರ್ಚ್ ಫಲಿತಾಂಶಗಳ ಪಟ್ಟಿ ನೀಡಲಾಗುತ್ತದೆ, ಮತ್ತು ಆ ಫಲಿತಾಂಶಗಳ ಆಧಾರದ ಮೇಲೆ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರ ನೀಡಬೇಕು. BrowseComp Long Context ಅನ್ನು ನಾವು ನೈಜ, ಸವಾಲಿನ ಹಾಗೂ ವಿಶ್ವಾಸಾರ್ಹವಾದ ಸರಿಯಾದ ನೈಜತೆಯ ಉತ್ತರಗಳೊಂದಿಗೆ ವಿನ್ಯಾಸಗೊಳಿಸಿದ್ದೇವೆ. 128K–256K ಟೋಕನ್‌ಗಳ ಇನ್‌ಪುಟ್‌ಗಳಲ್ಲಿ, GPT‑5 89% ಸಂದರ್ಭಗಳಲ್ಲಿ ಸರಿಯಾದ ಉತ್ತರ ನೀಡುತ್ತದೆ.

API ಯಲ್ಲಿ, ಎಲ್ಲಾ GPT‑5 ಮಾಡೆಲ್‌ಗಳು ಒಟ್ಟು 4,00,000 ಟೋಕನ್‌ಗಳ ಸಂದರ್ಭದ ಉದ್ದಕ್ಕಾಗಿ—ಗರಿಷ್ಠ 2,72,000 ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳನ್ನು ಸ್ವೀಕರಿಸಬಹುದು ಮತ್ತು ಗರಿಷ್ಠ 1,28,000 ತಾರ್ಕಿಕತೆ ಮತ್ತು ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳನ್ನು ಉತ್ಪಾದಿಸಬಹುದು.

ವಾಸ್ತವಿಕತೆ

GPT‑5 ನಮ್ಮ ಹಿಂದಿನ ಮಾಡೆಲ್‌ಗಳಿಗಿಂತ ಹೆಚ್ಚು ನಂಬಿಕೆಗೆ ಪಾತ್ರವಾಗಿದೆ. LongFact ಮತ್ತು FactScore ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳ ಪ್ರಾಂಪ್ಟ್‌ಗಳಲ್ಲಿ, GPT‑5 o3 ಗಿಂತ ಸುಮಾರು 80% ಕಡಿಮೆ ವಾಸ್ತವಿಕ ತಪ್ಪುಗಳನ್ನು ಮಾಡುತ್ತದೆ. ಇದರಿಂದ GPT‑5 ನಿಖರತೆ ಅತ್ಯಂತ ಪ್ರಮುಖವಾಗಿರುವ ಏಜೆಂಟಿಕ್ ಬಳಕೆ ಪ್ರಕರಣಗಳಿಗೆ—ವಿಶೇಷವಾಗಿ ಕೋಡ್, ಡೇಟಾ ಮತ್ತು ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳುವ ಸಂದರ್ಭಗಳಿಗೆ—ಉತ್ತಮವಾಗಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ.

ಅಧಿಕ ಸ್ಕೋರ್‌ಗಳು ಕಳಪೆಯಾಗಿವೆ. LongFact(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಮತ್ತು FActScore(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಓಪನ್ ಎಂಡೆಡ್ ವಾಸ್ತವ-ಹುಡುಕುವ ಪ್ರಶ್ನೆಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ. ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳ ಪ್ರಾಂಪ್ಟ್‌ಗಳಿಗೆ ಬಂದ ಉತ್ತರಗಳನ್ನು ಫ್ಯಾಕ್ಟ್-ಚೆಕ್ ಮಾಡಲು ಬ್ರೌಸಿಂಗ್ ಸಹಿತ LLM-ಆಧಾರಿತ ಗ್ರೇಡರ್ ಅನ್ನು ಬಳಸುತ್ತೇವೆ ಮತ್ತು ವಾಸ್ತವಿಕವಾಗಿ ತಪ್ಪಾದ ಹೇಳಿಕೆಗಳ ಅನುಪಾತವನ್ನು ಅಳೆಯುತ್ತೇವೆ. ಅನುಷ್ಠಾನ ಮತ್ತು ಗ್ರೇಡಿಂಗ್ ವಿವರಗಳನ್ನು ಸಿಸ್ಟಮ್ ಕಾರ್ಡ್‌ನಲ್ಲಿ ಕಾಣಬಹುದು. ರೀಸನಿಂಗ್ ಮಾದರಿಗಳು ಅಧಿಕ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನವನ್ನು ಬಳಸಿದವು. ಹುಡುಕಾಟವನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿರಲಿಲ್ಲ.

ಸಾಮಾನ್ಯವಾಗಿ, GPT‑5 ಗೆ ತನ್ನ ಸೀಮಿತತೆಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ಸ್ವ-ಜಾಗೃತವಾಗಲು ಮತ್ತು ಅನಿರೀಕ್ಷಿತ ಸವಾಲುಗಳನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸಲು ತರಬೇತಿ ನೀಡಲಾಗಿದೆ. ನಾವು ಆರೋಗ್ಯ ಪ್ರಶ್ನೆಗಳಲ್ಲಿ ಹೆಚ್ಚು ನಿಖರವಾಗಿರಲು GPT‑5 ಗೆ ತರಬೇತಿ ನೀಡಿದ್ದೇವೆ (ನಮ್ಮ ಸಂಶೋಧನಾ ಬ್ಲಾಗ್‌ನಲ್ಲಿ ಇನ್ನಷ್ಟು ಓದಿ). ಎಲ್ಲಾ ಭಾಷಾ ಮಾಡೆಲ್‌ಗಳಂತೆ, ಪ್ರಮುಖ ಸಂದರ್ಭಗಳಲ್ಲಿ GPT‑5 ರ ಕೆಲಸವನ್ನು ನೀವು ಪರಿಶೀಲಿಸುವುದನ್ನು ನಾವು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ.

ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳು

ಕನಿಷ್ಠ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನ

ಡೆವಲಪರ್‌ಗಳು API ಯಲ್ಲಿ ತಾರ್ಕಿಕತೆಯ_ಪ್ರಯತ್ನ ನಿಯತಾಂಕದ ಮೂಲಕ GPT‑5 ರ ಆಲೋಚನಾ ಸಮಯವನ್ನು ನಿಯಂತ್ರಿಸಬಹುದು. ಹಿಂದಿನ ಮೌಲ್ಯಗಳಾದ ಕಡಿಮೆ, ಮಧ್ಯಮ (ಪೂರ್ವನಿಯೋಜಿತ), ಮತ್ತು ಅಧಿಕ ಕ್ಕೆ ಹೆಚ್ಚುವರಿಯಾಗಿ, GPT‑5 ಕನಿಷ್ಠ ಅನ್ನು ಸಹ ಬೆಂಬಲಿಸುತ್ತದೆ, ಇದು ಉತ್ತರವನ್ನು ತ್ವರಿತವಾಗಿ ನೀಡಲು GPT‑5 ನ ತಾರ್ಕಿಕತೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

ಉನ್ನತ ತಾರ್ಕಿಕತೆಯ_ಪ್ರಯತ್ನ ಮೌಲ್ಯಗಳು ಗುಣಮಟ್ಟವನ್ನು ಗರಿಷ್ಠಗೊಳಿಸುತ್ತವೆ ಮತ್ತು ಕಡಿಮೆ ಮೌಲ್ಯಗಳು ವೇಗವನ್ನು ಗರಿಷ್ಠಗೊಳಿಸುತ್ತವೆ. ಎಲ್ಲಾ ಕಾರ್ಯಗಳು ಹೆಚ್ಚುವರಿ ತಾರ್ಕಿಕತೆಯಿಂದ ಸಮಾನ ಪ್ರಯೋಜನ ಪಡೆಯುವುದಿಲ್ಲ, ಆದ್ದರಿಂದ ನೀವು ಗಮನಿಸುವ ಬಳಕೆ ಪ್ರಕರಣಗಳಿಗೆ ಯಾವುದು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ಪರೀಕ್ಷಿಸಲು ನಾವು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ.

ಉದಾಹರಣೆಗೆ, ಕಡಿಮೆ ಗಿಂತ ಮೇಲಿನ ತಾರ್ಕಿಕತೆಯು ಸರಳವಾದ ದೀರ್ಘ-ಸಂದರ್ಭದ ಮರುಪಡೆಯುವಿಕೆಗೆ ಸ್ವಲ್ಪ ಮಾತ್ರ ಸೇರಿಸುತ್ತದೆ, ಆದರೆ ದೃಶ್ಯ ತಾರ್ಕಿಕ ಮಾನದಂಡವಾದ CharXiv ತಾರ್ಕಿಕತೆ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಗೆ ಕೆಲವು ಶೇಕಡಾವಾರು ಪಾಯಿಂಟ್‌ಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ.

GPT‑5 ಯ ತಾರ್ಕಿಕತೆಯ ಪ್ರಯತ್ನ ಬೇರೆ ಬೇರೆ ಕಾರ್ಯಗಳಲ್ಲಿ ವಿಭಿನ್ನ ಪ್ರಯೋಜನಗಳನ್ನು ನೀಡುತ್ತದೆ. CharXiv ತಾರ್ಕಿಕತೆಗಾಗಿ, GPT‑5 ಗೆ Python ಟೂಲ್ ಪ್ರವೇಶವನ್ನು ನೀಡಲಾಯಿತು.

Verbosity

GPT‑5 ರ ಉತ್ತರಗಳ ಪೂರ್ವನಿಯೋಜಿತ ಉದ್ದವನ್ನು ನಿಯಂತ್ರಿಸಲು ಸಹಾಯ ಮಾಡಲು, ನಾವು ಹೊಸ API ಪ್ಯಾರಾಮೀಟರ್ verbosity ಅನ್ನು ಪರಿಚಯಿಸಿದ್ದೇವೆ, ಇದು ಕಡಿಮೆ, ಮಧ್ಯಮ (ಪೂರ್ವನಿಯೋಜಿತ) ಮತ್ತು ಅಧಿಕ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿರುತ್ತದೆ. ಸ್ಪಷ್ಟ ಸೂಚನೆಗಳು verbosity ಪ್ಯಾರಾಮೀಟರ್‌ಗಳಿಗೆ ವಿರುದ್ಧವಾದರೆ, ಸ್ಪಷ್ಟ ಸೂಚನೆಗಳಿಗೆ ಪ್ರಾಥಮ್ಯ ನೀಡಲಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ನೀವು GPT‑5 ಗೆ “5 ಪ್ಯಾರಾಗ್ರಾಫ್ ಪ್ರಬಂಧವನ್ನು ಬರೆಯಿರಿ” ಎಂದು ಕೇಳಿದರೆ, verbosity ಮಟ್ಟವೇನೇ ಇರಲಿ, ಮಾದರಿಯ ಪ್ರತಿಕ್ರಿಯೆ ಯಾವಾಗಲೂ 5 ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳಾಗಿರಬೇಕು (ಆದರೆ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳ ಉದ್ದ ಸ್ವತಃ ಹೆಚ್ಚು ಅಥವಾ ಕಡಿಮೆ ಇರಬಹುದು).

Verbosity=ಕಡಿಮೆ

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=ಮಧ್ಯಮ

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=ಅಧಿಕ

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

ಟೂಲ್ ಕಾಲ್‌ಗಳ ಮೊದಲು ಪ್ರಸ್ತಾವನೆ ಸಂದೇಶಗಳು

ಸೂಚನೆ ನೀಡಿದರೆ, GPT‑5 ಟೂಲ್ ಕಾಲ್‌ಗಳ ಮೊದಲು ಮತ್ತು ಮಧ್ಯದಲ್ಲಿ ಬಳಕೆದಾರರು ಕಾಣಬಹುದಾದ ಪ್ರಸ್ತಾವನೆ ಸಂದೇಶಗಳನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡುತ್ತದೆ. ಅಡಗಿದ ತಾರ್ಕಿಕ ಸಂದೇಶಗಳಿಗಿಂತ ಭಿನ್ನವಾಗಿ, ಈ ದೃಶ್ಯ ಸಂದೇಶಗಳು GPT‑5 ಗೆ ತನ್ನ ಪ್ಲಾನ್‌ಗಳು ಮತ್ತು ಪ್ರಗತಿಯನ್ನು ಬಳಕೆದಾರರಿಗೆ ತಿಳಿಸಲು ಅವಕಾಶ ನೀಡುತ್ತವೆ, ಇದರಿಂದ ಅಂತಿಮ ಬಳಕೆದಾರರು ಅದರ ವಿಧಾನ ಮತ್ತು ಸಾಧನ ಕರೆಗಳ ಹಿಂದೆ ಇರುವ ಉದ್ದೇಶವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯವಾಗುತ್ತದೆ.

ಕಸ್ಟಮ್ ಟೂಲ್‌ಗಳು

ನಾವು ಹೊಸ ಟೂಲ್ ವಿಧ—ಕಸ್ಟಮ್ ಟೂಲ್‌ಗಳನ್ನು—ಪರಿಚಯಿಸುತ್ತಿದ್ದೇವೆ, ಇದರಿಂದ GPT‑5 JSON ಬದಲಿಗೆ ಪ್ಲೇನ್‌ಟೆಕ್ಸ್ಟ್ ಮೂಲಕ ಟೂಲ್‌ಗಳನ್ನು ಕರೆಸಿಕೊಳ್ಳಬಹುದು. ಕಸ್ಟಮ್ ಟೂಲ್ ಸ್ವರೂಪಗಳನ್ನು ಅನುಸರಿಸಲು GPT‑5 ಅನ್ನು ನಿರ್ಬಂಧಿಸಲು, ಡೆವಲಪರ್‌ಗಳು ರೆಜಿಕ್ಸ್ ಅಥವಾ ಹೆಚ್ಚು ಸಂಪೂರ್ಣವಾಗಿ ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಸಂದರ್ಭ-ಮುಕ್ತ ವ್ಯಾಕರಣವನ್ನು(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಒದಗಿಸಬಹುದು.

ಈ ಹಿಂದೆ, ಡೆವಲಪರ್‌ಗಳು ವ್ಯಾಖ್ಯಾನಿಸಿದ ಟೂಲ್‌ಗಳನ್ನು JSON ಮೂಲಕ ಕರೆಸಿಕೊಳ್ಳಬೇಕಾಗಿತ್ತು, ಇದು ವೆಬ್ API ಗಳಲ್ಲಿ ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಡೆವಲಪರ್‌ಗಳು ಬಳಸುವ ಸಾಮಾನ್ಯ ಸ್ವರೂಪವಾಗಿದೆ. ಆದರೆ ಮಾನ್ಯ JSON ಅನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡಲು ಮಾಡೆಲ್ ಎಲ್ಲ ಉಲ್ಲೇಖ ಗುರುತುಗಳು, ಬ್ಯಾಕ್‌ಸ್ಲ್ಯಾಶ್‌ಗಳು, ನ್ಯೂಲೈನ್‌ಗಳು ಮತ್ತು ಇತರ ನಿಯಂತ್ರಕ ಅಕ್ಷರಗಳನ್ನು ನಿಖರವಾಗಿ ಎಸ್ಕೇಪ್ ಮಾಡಬೇಕಾಗುತ್ತದೆ. ನಮ್ಮ ಮಾದರಿಗಳು JSON ಅನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡಲು ಉತ್ತಮವಾಗಿ ತರಬೇತಿಗೊಳಿಸಲ್ಪಟ್ಟಿದ್ದರೂ, ನೂರಾರು ಸಾಲುಗಳ ಕೋಡ್ ಅಥವಾ 5 ಪುಟಗಳ ವರದಿ ಹೀಗೆ ಉದ್ದವಾದ ಇನ್‌ಪುಟ್‌ಗಳಲ್ಲಿ, ದೋಷ ಸಂಭವಿಸುವ ಸಾಧ್ಯತೆ ಹೆಚ್ಚಾಗುತ್ತದೆ. ಕಸ್ಟಮ್ ಟೂಲ್‌ಗಳೊಂದಿಗೆ, GPT‑5 ಎಲ್ಲಾ ಎಸ್ಕೇಪ್ ಮಾಡಬೇಕಾದ ಅಕ್ಷರಗಳನ್ನು ತಪ್ಪಿಸದೆ, ಟೂಲ್ ಇನ್‌ಪುಟ್‌ಗಳನ್ನು ಪ್ಲೇನ್‌ಟೆಕ್ಸ್ಟ್ ಆಗಿ ಬರೆಯಬಹುದು.

SWE-ಬೆಂಚ್ ವೆರಿಫೈಡ್‌ನಲ್ಲಿ JSON ಟೂಲ್‌ಗಳ ಬದಲು ಕಸ್ಟಮ್ ಟೂಲ್‌ಗಳನ್ನು ಬಳಸಿದಾಗಲೂ GPT‑5 ಸಮಾನ ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ.

ಸುರಕ್ಷತೆ

GPT‑5 ಸುರಕ್ಷತೆಯಲ್ಲಿ ಹೊಸ ಮಟ್ಟವನ್ನು ತಲುಪಿದ್ದು, ಹೆಚ್ಚು ದೃಢ, ವಿಶ್ವಾಸಾರ್ಹ ಮತ್ತು ಸಹಾಯಕ ಮಾಡೆಲ್ ಆಗಿದೆ. GPT‑5 ನಮ್ಮ ಹಿಂದಿನ ಮಾಡೆಲ್‌ಗಳಿಗಿಂತ ಬಹಳ ಕಡಿಮೆ ಭ್ರಮೆಗೊಳಗಾಗುವ ಸಾಧ್ಯತೆ ಹೊಂದಿದ್ದು, ತನ್ನ ಕ್ರಿಯೆಗಳು ಮತ್ತು ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಬಳಕೆದಾರರಿಗೆ ಹೆಚ್ಚು ಪ್ರಾಮಾಣಿಕವಾಗಿ ತಿಳಿಸುತ್ತದೆ ಮತ್ತು ಸುರಕ್ಷತಾ ಮಿತಿಗಳೊಳಗೆ ಉಳಿಯುತ್ತಾ ಸಾಧ್ಯವಾದಷ್ಟು ಸಹಾಯಕ ಉತ್ತರಗಳನ್ನು ನೀಡುತ್ತದೆ. ನೀವು ನಮ್ಮ ಸಂಶೋಧನಾ ಬ್ಲಾಗ್ ನಲ್ಲಿ ಇನ್ನಷ್ಟು ಓದಬಹುದು.

ಲಭ್ಯತೆ ಮತ್ತು ಬೆಲೆ

GPT‑5 ಈಗ API ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ನಲ್ಲಿ ಮೂರು ಗಾತ್ರಗಳಲ್ಲಿ ಲಭ್ಯವಿದೆ: gpt-5, gpt-5-mini, ಮತ್ತು gpt-5-nano. ಇದು ಪ್ರತಿಕ್ರಿಯೆಗಳ API, ಚಾಟ್ ಪೂರ್ಣಗೊಳಿಸುವಿಕೆಗಳ API ಗಳಲ್ಲಿ ಲಭ್ಯವಿದ್ದು, Codex CLI ಯಲ್ಲಿ ಡೀಫಾಲ್ಟ್ ಆಗಿದೆ. GPT‑5 ದರ $1.25 ಪ್ರತಿ 1M ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ ಮತ್ತು $10 ಪ್ರತಿ 1M ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ, GPT‑5 mini ದರ $0.25 ಪ್ರತಿ 1M ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ ಮತ್ತು $2 ಪ್ರತಿ 1M ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ, ಮತ್ತು GPT‑5 nano ದರ $0.05 ಪ್ರತಿ 1M ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ ಮತ್ತು $0.40 ಪ್ರತಿ 1M ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ.

ಈ ಮಾದರಿಗಳು ತಾರ್ಕಿಕತೆಯ_ಪ್ರಯತ್ನ ಮತ್ತು verbosity API ಪ್ಯಾರಾಮೀಟರ್‌ಗಳನ್ನು ಹಾಗೂ ಕಸ್ಟಮ್ ಟೂಲ್‌ಗಳನ್ನು ಸಹ ಬೆಂಬಲಿಸುತ್ತವೆ. ಅವು ಪ್ಯಾರಲಲ್ ಟೂಲ್ ಕಾಲಿಂಗ್, ಬಿಲ್ಟ್-ಇನ್ ಟೂಲ್‌ಗಳು (ವೆಬ್ ಸರ್ಚ್, ಫೈಲ್ ಸರ್ಚ್, ಇಮೇಜ್ ಜನರೇಶನ್ ಮತ್ತು ಇನ್ನಷ್ಟು), ಕೋರ್ API ವೈಶಿಷ್ಟ್ಯಗಳು (ಸ್ಟ್ರೀಮಿಂಗ್, ಸ್ಟ್ರಕ್ಚರ್ಡ್ ಔಟ್‌ಪುಟ್‌ಗಳು ಮತ್ತು ಇನ್ನಷ್ಟು), ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಕ್ಯಾಶಿಂಗ್ ಮತ್ತು ಬ್ಯಾಚ್ API ಮುಂತಾದ ಖರ್ಚು ಉಳಿಸುವ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸಹ ಬೆಂಬಲಿಸುತ್ತವೆ.

ChatGPT ಯಲ್ಲಿ ಬಳಸುವ GPT‑5 ರ ತಾರ್ಕಿಕತೆಯಿಲ್ಲದ ಆವೃತ್ತಿ API ಯಲ್ಲಿ gpt-5-ಚಾಟ್-ಇತ್ತೀಚಿನದು ರೂಪದಲ್ಲಿ ಲಭ್ಯವಿದ್ದು, ಇದರ ದರವೂ $1.25 ಪ್ರತಿ 1M ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ ಮತ್ತು $10 ಪ್ರತಿ 1M ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳಿಗೆ ಇದೆ.

GPT‑5 Microsoft 365 Copilot, Copilot, GitHub Copilot ಮತ್ತು Azure AI Foundry ಸೇರಿದಂತೆ ಎಲ್ಲಾ Microsoft ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳಲ್ಲಿ ಕೂಡ ಬಿಡುಗಡೆ ಆಗುತ್ತಿದೆ.

ವಿವರವಾದ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು

ಬುದ್ಧಿಮತ್ತೆ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] *ಹಿಂದಿನ ಬ್ಲಾಗ್ ಪೋಸ್ಟ್‌ನಲ್ಲಿ ವರದಿಯಾದ ಸಂಖ್ಯೆಗಳಲ್ಲಿ ಸ್ವಲ್ಪ ವ್ಯತ್ಯಾಸವಿದೆ, ಏಕೆಂದರೆ ಆ ಮೌಲ್ಯಮಾಪನೆಗಳು HLE ಯ ಹಳೆಯ ಆವೃತ್ತಿಯಲ್ಲಿ ನಡೆಸಲ್ಪಟ್ಟಿದ್ದವು.

ಮಲ್ಟಿಮೋಡಲ್
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
ಕೋಡಿಂಗ್
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$112ಸಾ$75ಸಾ$49ಸಾ$86ಸಾ$66ಸಾ$34ಸಾ$31ಸಾ$9ಸಾ
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] ನಮ್ಮ ಮೂಲಸೌಕರ್ಯದಲ್ಲಿ ರನ್ ಮಾಡಲಾಗದ 500 ರಲ್ಲಿ 23 ಸಮಸ್ಯೆಗಳನ್ನು ನಾವು ಹೊರತುಪಡಿಸಿದ್ದೇವೆ. ಬಿಟ್ಟುಬಿಡಲಾದ 23 ಕಾರ್ಯಗಳ ಪೂರ್ಣ ಪಟ್ಟಿ ಇಂತಿದೆ 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' ಮತ್ತು 'sphinx-doc__sphinx-9367'.

ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುವುದು
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] ಗಮನಿಸಿ: MultiChallenge (GPT-4o) ನಲ್ಲಿ ಡೀಫಾಲ್ಟ್ ಗ್ರೇಡರ್ ಅನೇಕ ಬಾರಿ ಮಾಡೆಲ್‌ನ ಪ್ರತಿಕ್ರಿಯೆಗಳಿಗೆ ತಪ್ಪು ಅಂಕನ ನೀಡುತ್ತದೆ ಎಂದು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ. ಗ್ರೇಡರ್ ಅನ್ನು o3-mini ಯಂತಹ ತಾರ್ಕಿಕತೆ ಮಾಡೆಲ್ ಗೆ ಬದಲಾಯಿಸಿದಾಗ, ನಾವು ಪರಿಶೀಲಿಸಿದ ಮಾಡೆಲ್ ಗಳಲ್ಲಿ ಗ್ರೇಡಿಂಗ್ ನಿಖರತೆ ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸುತ್ತದೆ ಎಂದು ಕಂಡಿದ್ದೇವೆ.

ಫಂಕ್ಷನ್ ಕಾಲಿಂಗ್
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
ದೀರ್ಘ ಸಂದರ್ಭ.
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
ಭ್ರಮೆಗಳು
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

ಲೇಖಕ

OpenAI