ಇಂದು, ನಾವು ChatGPT ನಲ್ಲಿ GPT‑5.4 (GPT‑5.4 Thinking), API ಮತ್ತು Codex ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿದ್ದೇವೆ. ಇದು ವೃತ್ತಿಪರ ಕೆಲಸಕ್ಕಾಗಿ ನಮ್ಮ ಅತ್ಯಂತ ಸಾಮರ್ಥ್ಯವಂತ ಮತ್ತು ಪರಿಣಾಮಕಾರಿ ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್. ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳಲ್ಲಿ ಗರಿಷ್ಠ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಬಯಸುವ ಜನರಿಗಾಗಿ, ನಾವು ChatGPT ಮತ್ತು API ಯಲ್ಲಿ GPT‑5.4 Pro ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿದ್ದೇವೆ.
GPT‑5.4 ನಮ್ಮ ಇತ್ತೀಚಿನ ರೀಜನಿಂಗ್, ಕೋಡಿಂಗ್ ಮತ್ತು ಏಜೆಂಟಿಕ್ ವರ್ಕ್ಫ್ಲೋಗಳಲ್ಲಿನ ಅತ್ಯುತ್ತಮ ಪ್ರಗತಿಗಳನ್ನು ಒಂದೇ ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್ನಲ್ಲಿ ಒಟ್ಟುಗೂಡಿಸುತ್ತದೆ. ಇದು GPT‑5.3‑Codex ನ ಉದ್ಯಮ-ಮುಂಚೂಣಿಯ ಕೋಡಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿದ್ದು, ಸ್ಪ್ರೆಡ್ಶೀಟ್ಗಳು, ಪ್ರೆಸೆಂಟೇಶನ್ಗಳು ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್ಗಳನ್ನು ಒಳಗೊಂಡ ವೃತ್ತಿಪರ ಕಾರ್ಯಗಳಲ್ಲಿ ಸಾಧನಗಳು, ಸಾಫ್ಟ್ವೇರ್ ಪರಿಸರಗಳು ಮತ್ತು ಟೂಲ್ಗಳಾದ್ಯಂತ ಮಾಡೆಲ್ ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ಸುಧಾರಿಸುತ್ತದೆ. ಫಲಿತಾಂಶವೆಂದರೆ ಸಂಕೀರ್ಣ ನೈಜ ಕೆಲಸವನ್ನು ನಿಖರವಾಗಿ, ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಮತ್ತು ದಕ್ಷವಾಗಿ ಪೂರ್ಣಗೊಳಿಸುವ ಮಾಡೆಲ್, ನೀವು ಕೇಳಿದ್ದನ್ನು ಕಡಿಮೆ ಹಿಂದೂಮುಂದು ಸಂವಹನದೊಂದಿಗೆ ಒದಗಿಸುವುದು.
ChatGPT ನಲ್ಲಿ, GPT‑5.4 Thinking ಈಗ ತನ್ನ ಯೋಚನೆಯ ಮುಂಚಿತ ಯೋಜನೆಯನ್ನು ಒದಗಿಸಬಹುದು, ಆದ್ದರಿಂದ ಅದು ಕೆಲಸ ಮಾಡುತ್ತಿರುವಾಗಲೇ ನೀವು ಪ್ರತಿಕ್ರಿಯೆಯ ಮಧ್ಯದಲ್ಲೇ ದಿಕ್ಕನ್ನು ಸರಿಹೊಂದಿಸಬಹುದು ಮತ್ತು ಹೆಚ್ಚುವರಿ ತಿರುವುಗಳಿಲ್ಲದೆ ನಿಮಗೆ ಬೇಕಾದುದಕ್ಕೆ ಇನ್ನಷ್ಟು ಸಮೀಪವಾಗಿ ಹೊಂದಿಕೊಳ್ಳುವ ಅಂತಿಮ ಔಟ್ಪುಟ್ಗೆ ತಲುಪಬಹುದು. GPT‑5.4 Thinking ಡೀಪ್ ವೆಬ್ ರಿಸರ್ಚ್ ಅನ್ನು ಕೂಡ ಸುಧಾರಿಸುತ್ತದೆ, ವಿಶೇಷವಾಗಿ ಅತ್ಯಂತ ನಿರ್ದಿಷ್ಟ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ ಮತ್ತು ಹೆಚ್ಚು ಸಮಯ ಯೋಚನೆ ಅಗತ್ಯವಿರುವ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ ಸಂದರ್ಭವನ್ನು ಉತ್ತಮವಾಗಿ ಕಾಪಾಡಿಕೊಳ್ಳುತ್ತದೆ. ಒಟ್ಟಾಗಿ, ಈ ಸುಧಾರಣೆಗಳು ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಉತ್ತರಗಳು ಹೆಚ್ಚು ವೇಗವಾಗಿ ಲಭ್ಯವಾಗುತ್ತವೆ ಮತ್ತು ಕೈಯಲ್ಲಿರುವ ಕಾರ್ಯಕ್ಕೆ ಸಂಬಂಧಿತವಾಗಿಯೇ ಉಳಿಯುತ್ತವೆ ಎಂಬುದನ್ನು ಸೂಚಿಸುತ್ತವೆ.
Codex ಮತ್ತು API ಯಲ್ಲಿ, GPT‑5.4 ನಾವು ನೆಟಿವ್, ಸ್ಟೇಟ್-ಆಫ್-ದಿ-ಆರ್ಟ್ ಕಂಪ್ಯೂಟರ್ ಬಳಕೆಯ ಸಾಮರ್ಥ್ಯಗಳು ಹೊಂದಿರುವಂತೆ ಬಿಡುಗಡೆ ಮಾಡಿದ ಮೊದಲ ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ಮಾಡೆಲ್ ಆಗಿದೆ, ಇದರಿಂದ ಏಜೆಂಟ್ಗಳು ಕಂಪ್ಯೂಟರ್ಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿ ಅಪ್ಲಿಕೇಶನ್ಗಳಾದ್ಯಂತ ಸಂಕೀರ್ಣ ವರ್ಕ್ಫ್ಲೋಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ. ಇದು 1M ಟೋಕನ್ಗಳಷ್ಟು ಸಂದರ್ಭ ಬೆಂಬಲಿಸುತ್ತದೆ, ಇದರಿಂದ ಏಜೆಂಟ್ಗಳು ದೀರ್ಘ ಅವಧಿಗಳಲ್ಲಿ ಕಾರ್ಯಗಳನ್ನು ಯೋಜಿಸಲು, ನಿರ್ವಹಿಸಲು ಮತ್ತು ಪರಿಶೀಲಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ. GPT‑5.4 ಕೂಡ ಟೂಲ್ ಹುಡುಕಾಟ ಜೊತೆಗೆ ಟೂಲ್ಗಳು ಮತ್ತು ಕನೆಕ್ಟರ್ಗಳ ದೊಡ್ಡ ಇಕೋಸಿಸ್ಟಮ್ಗಳಾದ್ಯಂತ ಮಾಡೆಲ್ಗಳು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತವೆ ಎಂಬುದನ್ನು ಸುಧಾರಿಸುತ್ತದೆ, ಬುದ್ಧಿವಂತಿಕೆಯನ್ನು ತ್ಯಜಿಸದೆ ಏಜೆಂಟ್ಗಳು ಸರಿಯಾದ ಟೂಲ್ಗಳನ್ನು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಕಂಡುಹಿಡಿದು ಬಳಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಕೊನೆಗೆ, GPT‑5.4 ಇದುವರೆಗಿನ ನಮ್ಮ ಅತ್ಯಂತ ಟೋಕನ್ ದಕ್ಷ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ , GPT‑5.2 ಗೆ ಹೋಲಿಸಿದರೆ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಗಮನಾರ್ಹವಾಗಿ ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ಬಳಸುತ್ತದೆ—ಇದರಿಂದ ಟೋಕನ್ ಬಳಕೆ ಕಡಿಮೆಯಾಗುತ್ತದೆ ಮತ್ತು ವೇಗ ಹೆಚ್ಚುತ್ತದೆ.
ಸಾಮಾನ್ಯ ರೀಜನಿಂಗ್, ಕೋಡಿಂಗ್, ಮತ್ತು ವೃತ್ತಿಪರ ಜ್ಞಾನ ಕಾರ್ಯದಲ್ಲಿನ ಪ್ರಗತಿಗಳೊಂದಿಗೆ, GPT‑5.4 ChatGPT, API ಮತ್ತು Codex ಅಡ್ಲಾಗಿ ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹ ಏಜೆಂಟ್ಗಳು, ವೇಗವಾದ ಡೆವಲಪರ್ ವರ್ಕ್ಫ್ಲೋಗಳು ಮತ್ತು ಹೆಚ್ಚಿನ ಗುಣಮಟ್ಟದ ಔಟ್ಪುಟ್ಗಳನ್ನು ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (ಗೆಲುವುಗಳು ಅಥವಾ ಸಮನ್ವಯಗಳು) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (ಸಾರ್ವಜನಿಕ) | 57.7% | 56.8% | 55.6% |
OSWorld-ಪ್ರಮಾಣಿತ | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*ಈ ಹಿಂದೆ 64.7% ಎಂದು ವರದಿ ಮಾಡಲಾಗಿದೆ. GPT‑5.3‑Codex ಮೂಲ ಚಿತ್ರದ ರೆಸಲ್ಯೂಶನ್ ಅನ್ನು ಸಂರಕ್ಷಿಸುವ ಹೊಸದಾಗಿ ಪರಿಚಯಿಸಲಾದ API ಪ್ಯಾರಾಮೀಟರ್ನೊಂದಿಗೆ 74.0% ಸಾಧಿಸುತ್ತದೆ.
GPT‑5.2 ಸಾಮಾನ್ಯ ರೀಜನಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳ ಮೇಲೆ ಆಧಾರಿತವಾಗಿ, GPT‑5.4 ವೃತ್ತಿಪರರಿಗೆ ಮಹತ್ವವಾದ ನೈಜ-ಪ್ರಪಂಚದ ಕಾರ್ಯಗಳಲ್ಲಿ ಇನ್ನೂ ಹೆಚ್ಚು ಸ್ಥಿರ ಮತ್ತು ಮೆರುಗಾದ ಫಲಿತಾಂಶಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ.
GDPval ನಲ್ಲಿ, 44 ವೃತ್ತಿಗಳನ್ನು ವ್ಯಾಪಿಸುವ ಉತ್ತಮವಾಗಿ ನಿರ್ದಿಷ್ಟಗೊಳಿಸಿದ ಜ್ಞಾನ ಕಾರ್ಯವನ್ನು ಉತ್ಪಾದಿಸುವ ಏಜೆಂಟ್ಗಳ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಪರೀಕ್ಷಿಸುವ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ, GPT‑5.4 ಹೊಸ ಅತ್ಯಾಧುನಿಕ ಮಟ್ಟವನ್ನು ಸಾಧಿಸುತ್ತದೆ, ಹೋಲಿಕೆಗಳ 83.0% ನಲ್ಲಿ ಉದ್ಯಮ ವೃತ್ತಿಪರರಿಗೆ ಸಮನಾಗಿ ಅಥವಾ ಅವರನ್ನು ಮೀರಿಸಿ, GPT‑5.2 ಗೆ 71.0% ಹೋಲಿಸಿದರೆ.
GDPval ನಲ್ಲಿ, ಮಾಡೆಲ್ಗಳು ಅಮೆರಿಕಾದ GDP ಗೆ ಕೊಡುಗೆ ನೀಡುವ ಅಗ್ರ 9 ಕೈಗಾರಿಕೆಗಳಿಂದ 44 ವೃತ್ತಿಗಳನ್ನು ವ್ಯಾಪಿಸುವ ಉತ್ತಮವಾಗಿ ನಿರ್ದಿಷ್ಟಗೊಳಿಸಿದ ಜ್ಞಾನ ಕಾರ್ಯವನ್ನು ನಿರ್ವಹಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತವೆ. ಕಾರ್ಯಗಳು ನೈಜ ಕೆಲಸದ ಉತ್ಪನ್ನಗಳನ್ನು ಕೇಳುತ್ತವೆ, ಉದಾಹರಣೆಗೆ ಮಾರಾಟ ಪ್ರಸ್ತುತಿಗಳು, ಲೆಕ್ಕಪತ್ರ ಸ್ಪ್ರೆಡ್ಶೀಟ್ಗಳು, ತುರ್ತು ಆರೈಕೆ ವೇಳಾಪಟ್ಟಿಗಳು, ತಯಾರಿಕಾ ರೇಖಾಚಿತ್ರಗಳು ಅಥವಾ ಚಿಕ್ಕ ವೀಡಿಯೊಗಳು. GPT‑5.4ಗಾಗಿ ರೀಜನಿಂಗ್ ಪರಿಶ್ರಮವನ್ನು xhigh ಗೆ ಮತ್ತು GPT‑5.2ಗಾಗಿ ಹೆವಿಗೆ ಸೆಟ್ ಮಾಡಲಾಗಿತ್ತು (ChatGPT ನಲ್ಲಿ ಸ್ವಲ್ಪ ಕಡಿಮೆ ಮಟ್ಟ).
“GPT-5.4 ನಾವು ಇದುವರೆಗೂ ಪ್ರಯತ್ನಿಸಿದ ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್. ಇದು ಈಗ ನಮ್ಮ APEX-Agents ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ ಲೀಡರ್ಬೋರ್ಡ್ನ ಅಗ್ರಸ್ಥಾನದಲ್ಲಿದೆ, ಇದು ವೃತ್ತಿಪರ ಸೇವೆಗಳ ಕೆಲಸಕ್ಕಾಗಿ ಮಾಡೆಲ್ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯುತ್ತದೆ. ಇದು ಸ್ಲೈಡ್ ಡೆಕ್ಗಳು, ಆರ್ಥಿಕ ಮಾಡೆಲ್ಗಳು ಮತ್ತು ಕಾನೂನು ವಿಶ್ಲೇಷಣೆಗಳಂತಹ ದೀರ್ಘಾವಧಿಯ ವಿತರಣೆಗಳನ್ನು ರಚಿಸುವಲ್ಲಿ ಅತ್ಯುತ್ತಮವಾಗಿದೆ, ಸ್ಪರ್ಧಾತ್ಮಕ ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್ಗಳಿಗಿಂತ ವೇಗವಾಗಿ ಮತ್ತು ಕಡಿಮೆ ವೆಚ್ಚದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಾ ಉನ್ನತ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ.”
ನಾವು GPT‑5.4 ಯ ಸ್ಪ್ರೆಡ್ಶೀಟ್ಗಳು, ಪ್ರಸ್ತುತಿಕರಣಗಳು ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್ಗಳನ್ನು ರಚಿಸುವ ಮತ್ತು ಎಡಿಟ್ ಮಾಡುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಸುಧಾರಿಸುವುದಕ್ಕೆ ವಿಶೇಷ ಗಮನ ನೀಡಿದ್ದೇವೆ ಜೂನಿಯರ್ ಇನ್ವೆಸ್ಟ್ಮೆಂಟ್ ಬ್ಯಾಂಕಿಂಗ್ ಅನಾಲಿಸ್ಟ್ ಮಾಡಬಹುದಾದ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಮಾಡೆಲಿಂಗ್ ಕಾರ್ಯಗಳ ಆಂತರಿಕ ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ, GPT‑5.4 ಸರಾಸರಿ 87.5% ಅಂಕಗಳನ್ನು ಸಾಧಿಸುತ್ತದೆ, GPT‑5.2 ಗೆ 68.4% ಹೋಲಿಸಿದರೆ. ಪ್ರಸ್ತುತಿ ಮೌಲ್ಯಮಾಪನ ಪ್ರಾಂಪ್ಟ್ಗಳ ಒಂದು ಸಮೂಹದಲ್ಲಿ, ಬಲವಾದ ಸೌಂದರ್ಯ, ಹೆಚ್ಚಿನ ದೃಶ್ಯ ವೈವಿಧ್ಯ, ಮತ್ತು ಇಮೇಜ್ ಜನರೇಶನ್ನ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿ ಬಳಕೆಯ ಕಾರಣದಿಂದ ಮಾನವ ಮೌಲ್ಯಮಾಪಕರು GPT‑5.2 ಗಿಂತ GPT‑5.4 ನ ಪ್ರಸ್ತುತಿಗಳನ್ನು 68.0% ಸಮಯದಲ್ಲಿ ಆದ್ಯತೆ ನೀಡಿದರು.

ಡಾಕ್ಯುಮೆಂಟ್ಗಳನ್ನು ರೀಜನಿಂಗ್ ಪ್ರಯತ್ನವನ್ನು xhigh ಗೆ ಸೆಟ್ ಮಾಡಿ ರಚಿಸಲಾಯಿತು
ChatGPT ನಲ್ಲಿ GPT‑5.4 Thinking ಅಥವಾ Pro ಬಳಸಿ ನೀವು ಈ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಪ್ರಯತ್ನಿಸಬಹುದು. ನೀವು Enterprise ಗ್ರಾಹಕರಾಗಿದ್ದರೆ, ಇಂದೇ ಪ್ರಾರಂಭಗೊಂಡಿರುವ ನಮ್ಮ ಹೊಸದಾಗಿ ಬಿಡುಗಡೆಗೊಂಡ Excel ಗಾಗಿ ChatGPT ಮತ್ತು Google Sheets ಪ್ಲಗಿನ್ಗಳನ್ನು(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಬಳಸಲು ನಾವು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ. Codex ಮತ್ತು API ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ನಮ್ಮ ಸ್ಪ್ರೆಡ್ಶೀಟ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಮತ್ತು ಪ್ರೆಸೆಂಟೇಶನ್ ಕೌಶಲ್ಯಗಳನ್ನೂ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಾವು ನವೀಕರಿಸಿದ್ದೇವೆ.
GPT‑5.4 ಅನ್ನು ರೂಪಿಸಲು ನೈಜ-ಪ್ರಪಂಚದ ಕೆಲಸದಲ್ಲಿ ಉತ್ತಮವಾಗಲು, ಭ್ರಮೆಗಳು ಮತ್ತು ತಪ್ಪುಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುವಲ್ಲಿ ನಾವು ನಮ್ಮ ಪ್ರಗತಿಯನ್ನು ಮುಂದುವರಿಸಿದ್ದೇವೆ. GPT‑5.4 ನಮ್ಮ ಇದುವರೆಗಿನ ಅತ್ಯಂತ ವಾಸ್ತವಿಕ ಮಾಡೆಲ್: ಬಳಕೆದಾರರು ವಾಸ್ತವಿಕ ದೋಷಗಳನ್ನು ಫ್ಲ್ಯಾಗ್ ಮಾಡಿದ ಗುರುತು ತೆಗೆಯಲಾದ ಪ್ರಾಂಪ್ಟ್ಗಳ ಸಮೂಹದಲ್ಲಿ, GPT‑5.4 ಯ ವೈಯಕ್ತಿಕ ದಾವೆಗಳು 33% ಕಡಿಮೆ ಸುಳ್ಳಾಗಿರುವ ಸಾಧ್ಯತೆ ಹೊಂದಿವೆ ಮತ್ತು ಅದರ ಸಂಪೂರ್ಣ ಪ್ರತಿಕ್ರಿಯೆಗಳು ಯಾವುದೇ ದೋಷಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಸಾಧ್ಯತೆ 18% ಕಡಿಮೆ, GPT‑5.2 ಗೆ ಹೋಲಿಸಿದರೆ.
“GPT-5.4 ದಾಖಲೆ-ಭಾರೀ ಕಾನೂನು ಕಾರ್ಯಕ್ಕೆ ಹೊಸ ಮಾನದಂಡವನ್ನು ಸ್ಥಾಪಿಸುತ್ತದೆ. ನಮ್ಮ BigLaw Bench ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ, ಇದು 91% ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ. ಇತರ ಮಾಡೆಲ್ಗಳೊಂದಿಗೆ ಹೋಲಿಸಿದರೆ, GPT-5.4 ಪ್ರಸ್ತುತ ಸಂಕೀರ್ಣ ವ್ಯವಹಾರಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಯನ್ನು ರಚನಾತ್ಮಕವಾಗಿ ರೂಪಿಸುವಲ್ಲಿ, ದೀರ್ಘ ಒಪ್ಪಂದಗಳಾದ್ಯಂತ ನಿಖರತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳುವಲ್ಲಿ ಮತ್ತು ಕಾನೂನು ವೃತ್ತಿಪರರಿಗೆ ಅಗತ್ಯವಿರುವ ಉನ್ನತ ಮಟ್ಟದ ವಿವರವನ್ನು ಒದಗಿಸುವಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ.
GPT‑5.4 ನಮ್ಮ ಮೊದಲ ಸಾಮಾನ್ಯ-ಉದ್ದೇಶದ ಮಾಡೆಲ್ ಆಗಿದ್ದು, ನೈಸರ್ಗಿಕ ಕಂಪ್ಯೂಟರ್ ಬಳಕೆಯ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ಡೆವಲಪರ್ಗಳು ಹಾಗೂ ಏಜೆಂಟ್ಗಳಿಬ್ಬರಿಗೂ ಒಂದು ಪ್ರಮುಖ ಹೆಜ್ಜೆ ಮುಂದಾಗಿದೆ. ವೆಬ್ಸೈಟ್ಗಳು ಮತ್ತು ಸಾಫ್ಟ್ವೇರ್ ಸಿಸ್ಟಮ್ಗಳಲ್ಲಿ ನೈಜ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುವ ಏಜೆಂಟ್ಗಳನ್ನು ನಿರ್ಮಿಸಲು ಡೆವಲಪರ್ಗಳಿಗೆ ಇದು ಪ್ರಸ್ತುತ ಲಭ್ಯವಿರುವ ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್.
ನಾವು GPT‑5.4 ಅನ್ನು ವ್ಯಾಪಕ ಶ್ರೇಣಿಯ ಕಂಪ್ಯೂಟರ್-ಬಳಕೆ ಕಾರ್ಯಭಾರಗಳಲ್ಲಿ ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ತೋರಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ್ದೇವೆ. ಇದು Playwright ನಂತಹ ಲೈಬ್ರರಿಗಳ ಮೂಲಕ ಕಂಪ್ಯೂಟರ್ಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು ಕೋಡ್ ಬರೆಯುವಲ್ಲಿ ಅತ್ಯುತ್ತಮವಾಗಿದೆ, ಹಾಗೆಯೇ ಸ್ಕ್ರೀನ್ಶಾಟ್ಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯೆಯಾಗಿ ಮೌಸ್ ಮತ್ತು ಕೀಬೋರ್ಡ್ ಕಮಾಂಡ್ಗಳನ್ನು ನೀಡುವುದಲ್ಲಿಯೂ ಶ್ರೇಷ್ಠವಾಗಿದೆ. ಇದರ ವರ್ತನೆಯನ್ನು ಡೆವಲಪರ್ ಸಂದೇಶಗಳ ಮೂಲಕ ನಿಯಂತ್ರಿಸಬಹುದು, ಅಂದರೆ ಡೆವಲಪರ್ಗಳು ನಿರ್ದಿಷ್ಟ ಬಳಕೆ ಪ್ರಕರಣಗಳಿಗೆ ಹೊಂದುವಂತೆ ವರ್ತನೆಯನ್ನು ಹೊಂದಿಸಬಹುದು. ಡೆವಲಪರ್ಸ್ ಕಸ್ಟಮ್ ದೃಢೀಕರಣ ನೀತಿಗಳನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸುವ ಮೂಲಕ ವಿಭಿನ್ನ ರಿಸ್ಕ್ ಟಾಲರೆನ್ಸ್ ಮಟ್ಟಗಳಿಗೆ ಹೊಂದುವಂತೆ ಮಾಡೆಲ್ನ ಸುರಕ್ಷತಾ ನಡವಳಿಕೆಯನ್ನು ಕೂಡ ಕಾನ್ಫಿಗರ್ ಮಾಡಬಹುದು.
ಮಾಡೆಲ್ನ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ನಮ್ಯತೆ ವಿಭಿನ್ನ ಸೆಟ್ಟಿಂಗ್ಗಳಲ್ಲಿ ಕಂಪ್ಯೂಟರ್ ಬಳಕೆಯನ್ನು ಪರೀಕ್ಷಿಸುವ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ ಪ್ರತಿಬಿಂಬಿತವಾಗುತ್ತದೆ. OSWorld-Verified ನಲ್ಲಿ, ಸ್ಕ್ರೀನ್ಶಾಟ್ಗಳು ಮತ್ತು ಕೀಬೋರ್ಡ್/ಮೌಸ್ ಕ್ರಿಯೆಗಳ ಮೂಲಕ ಡೆಸ್ಕ್ಟಾಪ್ ಪರಿಸರವನ್ನು ನ್ಯಾವಿಗೇಟ್ ಮಾಡುವ ಮಾಡೆಲ್ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುವಲ್ಲಿ, GPT‑5.4 ಅತ್ಯಾಧುನಿಕ 75.0% ಯಶಸ್ಸಿನ ಪ್ರಮಾಣ ಸಾಧಿಸಿದೆ, ಇದು GPT‑5.2 ಯ 47.3% ಮತ್ತು ಮಾನವ ಕಾರ್ಯಕ್ಷಮತೆಯ 72.4%.1ಅನ್ನು ಉತ್ತಮವಾಗಿ ಮೀರಿಸಿದೆ.
WebArena-Verified ನಲ್ಲಿ, ಇದು ಬ್ರೌಸರ್ ಬಳಕೆಯನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ, DOM- ಮತ್ತು ಸ್ಕ್ರೀನ್ಶಾಟ್-ಆಧಾರಿತ ಸಂವಹನ ಎರಡನ್ನೂ ಬಳಸಿದಾಗ GPT‑5.4 ಮುಂಚೂಣಿಯ 67.3% ಯಶಸ್ಸಿನ ದರವನ್ನು ಸಾಧಿಸುತ್ತದೆ, GPT‑5.2 ರ 65.4% ಗೆ ಹೋಲಿಸಿದರೆ. ಬ್ರೌಸರ್ ಬಳಕೆಯನ್ನೂ ಪರೀಕ್ಷಿಸುವ Online-Mind2Web ನಲ್ಲಿ, GPT‑5.4 ಸ್ಕ್ರೀನ್ಶಾಟ್-ಆಧಾರಿತ ಅವಲೋಕನಗಳನ್ನು ಮಾತ್ರ ಬಳಸಿ 92.8% ಯಶಸ್ಸಿನ ದರವನ್ನು ಸಾಧಿಸುತ್ತದೆ, 70.9% ಯಶಸ್ಸಿನ ದರವನ್ನು ಸಾಧಿಸುವ ChatGPT Atlasನ ಏಜೆಂಟ್ ಮೋಡ್ಗಿಂತ ಸುಧಾರಣೆ ತೋರಿಸುತ್ತದೆ.
ಟೂಲ್ ಯೀಲ್ಡ್ ಎಂದರೆ ಸಹಾಯಕನು ಟೂಲ್ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಕಾಯಲು ಯೀಲ್ಡ್ ಮಾಡುವುದಾಗಿದೆ. 3 ಟೂಲ್ಗಳನ್ನು ಪ್ಯಾರಲಲ್ನಲ್ಲಿ ಕರೆಯಲಾಗಿದ್ದು, ನಂತರ ಇನ್ನೂ 3 ಟೂಲ್ಗಳನ್ನು ಪ್ಯಾರಲಲ್ನಲ್ಲಿ ಕರೆಯಲಾಗಿದ್ದರೆ, ಯೀಲ್ಡ್ ಸಂಖ್ಯೆ 2 ಆಗಿರುತ್ತದೆ. ಟೂಲ್ ಯೀಲ್ಡ್ ಗಳು ಟೂಲ್ ಕಾಲ್ಗಳಿಗಿಂತ ಲೇಟೆನ್ಸಿಯ ಉತ್ತಮ ಪ್ರಾಕ್ಸಿ, ಏಕೆಂದರೆ ಅವು ಪ್ಯಾರಲಲೈಜೇಶನ್ನ ಪ್ರಯೋಜನಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತವೆ.
GPT‑5.4 ಬ್ರೌಸರ್ ಇಂಟರ್ಫೇಸ್ನ ಸ್ಕ್ರೀನ್ಶಾಟ್ಗಳನ್ನು ಅರ್ಥೈಸುತ್ತದೆ ಮತ್ತು ಇಮೇಲ್ಗಳನ್ನು ಕಳುಹಿಸಲು ಹಾಗೂ ಕ್ಯಾಲೆಂಡರ್ ಈವೆಂಟ್ ಅನ್ನು ಶೆಡ್ಯೂಲ್ ಮಾಡಲು ಸಂಯೋಜಾಂಕ-ಆಧಾರಿತ ಕ್ಲಿಕ್ಕಿಂಗ್ ಮೂಲಕ UI ಅಂಶಗಳೊಂದಿಗೆ ಸಂವಹನ ಮಾಡುತ್ತದೆ.
GPT‑5.4ರ ಸುಧಾರಿತ ಕಂಪ್ಯೂಟರ್ ಬಳಕೆ ಮಾಡೆಲ್ನ ಸುಧಾರಿತ ಸಾಮಾನ್ಯ ದೃಶ್ಯ ಗ್ರಹಿಕೆ ಸಾಮರ್ಥ್ಯಗಳ ಮೇಲೆ ನಿರ್ಮಿತವಾಗಿದೆ. MMMU-Pro ನಲ್ಲಿ, ಮಾಡೆಲ್ನ ದೃಶ್ಯ ಅರಿವು ಮತ್ತು ರೀಜನಿಂಗ್ ಅನ್ನು ಪರೀಕ್ಷಿಸುವ ಪರೀಕ್ಷೆಯಲ್ಲಿ, GPT‑5.4 ಸಾಧನ ಬಳಕೆ ಇಲ್ಲದೆ 81.2% ಯಶಸ್ಸಿನ ದರವನ್ನು ಸಾಧಿಸುತ್ತದೆ, GPT‑5.2 ಯ 79.5% ಮೇಲಿನ ಸುಧಾರಣೆ. ಸುಧಾರಿತ ದೃಶ್ಯ ಗ್ರಹಿಕೆ ಉತ್ತಮ ಡಾಕ್ಯುಮೆಂಟ್ ಪಾರ್ಸಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳಿಗೂ ಕಾರಣವಾಗುತ್ತದೆ. OmniDocBench ನಲ್ಲಿ, ರೀಜನಿಂಗ್ ಪರಿಶ್ರಮವಿಲ್ಲದೆ GPT‑5.4 ಸರಾಸರಿ ದೋಷವನ್ನು (ಮಾಡೆಲ್ ಮುನ್ಸೂಚನೆ ಮತ್ತು ಗ್ರೌಂಡ್ ಟ್ರೂತ್ ನಡುವಿನ ಸಾಮಾನ್ಯೀಕೃತ ಸಂಪಾದನಾ ದೂರದಿಂದ ಅಳೆಯಲ್ಪಟ್ಟ) 0.109 ಎಂದು ಸಾಧಿಸುತ್ತದೆ, ಇದು GPT‑5.2ರ 0.140 ರಿಂದ ಸುಧಾರಿಸಿದೆ.
MMMUPro ಅನ್ನು ರೀಜನಿಂಗ್ ಪ್ರಯತ್ನವನ್ನು xhigh ಗೆ ಸೆಟ್ ಮಾಡಿ ರನ್ ಮಾಡಲಾಯಿತು. OmniDocBench ಅನ್ನು ರೀಜನಿಂಗ್ ಪ್ರಯತ್ನವನ್ನು none ಎಂದು ಹೊಂದಿಸಿ ಚಾಲನೆಗೊಳಿಸಲಾಯಿತು, ಕಡಿಮೆ ವೆಚ್ಚ, ಕಡಿಮೆ ಲೇಟೆನ್ಸಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸಲು.
ಪೂರ್ಣ ನಿಷ್ಠೆ ಮುಖ್ಯವಾಗಿರುವ ದಟ್ಟ, ಹೆಚ್ಚಿನ ರೆಸಲ್ಯೂಶನ್ ಚಿತ್ರಗಳಿಗಾಗಿ ದೃಶ್ಯ ಅರ್ಥಗರ್ಭಿತತೆಯನ್ನೂ ನಾವು ಸುಧಾರಿಸುತ್ತಿದ್ದೇವೆ. GPT‑5.4 ರಿಂದ ಪ್ರಾರಂಭಿಸಿ, ನಾವು ಮೂಲ ಚಿತ್ರ ಇನ್ಪುಟ್ ವಿವರ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಮಟ್ಟವನ್ನು ಪರಿಚಯಿಸುತ್ತಿದ್ದೇವೆ, ಇದು 10.24M ಒಟ್ಟು ಪಿಕ್ಸೆಲ್ಗಳು ಅಥವಾ 6000-ಪಿಕ್ಸೆಲ್ ಗರಿಷ್ಠ ಆಯಾಮದವರೆಗೆ, ಯಾವುದು ಕಡಿಮೆಯೋ ಅದು, ಪೂರ್ಣ-ನಿಖರತೆಯ ಗ್ರಹಿಕೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ; ಹೈ ಚಿತ್ರ ಇನ್ಪುಟ್ ವಿವರ ಮಟ್ಟವು ಈಗ 2.56M ಒಟ್ಟು ಪಿಕ್ಸೆಲ್ಗಳು ಅಥವಾ 2048-ಪಿಕ್ಸೆಲ್ ಗರಿಷ್ಠ ಆಯಾಮ ವರೆಗೆ ಬೆಂಬಲಿಸುತ್ತದೆ. API ಬಳಕೆದಾರರೊಂದಿಗೆ ನಡೆಸಿದ ಆರಂಭಿಕ ಪರೀಕ್ಷೆಯಲ್ಲಿ, ಮೂಲ ಅಥವಾ ಹೈ ಡೀಟೇಲ್ ಬಳಸಿದಾಗ ಸ್ಥಳೀಕರಣ ಸಾಮರ್ಥ್ಯ, ಚಿತ್ರ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಮತ್ತು ಕ್ಲಿಕ್ ನಿಖರತೆಯಲ್ಲಿ ಬಲವಾದ ಸುಧಾರಣೆಗಳನ್ನು ನಾವು ಗಮನಿಸಿದ್ದೇವೆ.
“~30K HOA ಮತ್ತು ಆಸ್ತಿ ತೆರಿಗೆ ಪೋರ್ಟಲ್ಗಳಾದ್ಯಂತ ಕಂಪ್ಯೂಟರ್ ಬಳಕೆಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯುವ ನಮ್ಮ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ, ಹಿಂದಿನ CUA ಮಾಡೆಲ್ಗಳ ~73–79% ಗೆ ಹೋಲಿಸಿದರೆ GPT-5.4 ಮೊದಲ ಪ್ರಯತ್ನದಲ್ಲೇ 95% ಯಶಸ್ಸಿನ ದರವನ್ನು ಮತ್ತು ಮೂರು ಪ್ರಯತ್ನಗಳೊಳಗೆ 100% ಅನ್ನು ಸಾಧಿಸಿದೆ. ಇದು ಸೆಷನ್ಗಳನ್ನು ~3x ವೇಗವಾಗಿ ಪೂರ್ಣಗೊಳಿಸಿತು, ಜೊತೆಗೆ ~70% ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ಬಳಸಿತು, ಇದರಿಂದ ಸ್ಕೇಲ್ನಲ್ಲಿ ವಿಶ್ವಾಸಾರ್ಹತೆ ಮತ್ತು ವೆಚ್ಚದ ಕಾರ್ಯಕ್ಷಮತೆ ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸಿತು.
API ಯಲ್ಲಿ, ಡೆವಲಪರ್ಗಳು ಅಪ್ಡೇಟ್ ಮಾಡಿದ ಕಂಪ್ಯೂಟರ್ ಟೂಲ್ ಬಳಸಿ ಈ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಪ್ರವೇಶಿಸಬಹುದು. ಶಿಫಾರಸು ಮಾಡಲಾದ ಉತ್ತಮ ಅಭ್ಯಾಸಗಳಿಗಾಗಿ ದಯವಿಟ್ಟು ನಮ್ಮ ನವೀಕರಿಸಿದ ದಸ್ತಾವೇಜನ್ನು(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನೋಡಿ.
GPT‑5.4 GPT‑5.3‑Codex ನ ಕೋಡಿಂಗ್ ಶಕ್ತಿಗಳನ್ನು ಮುಂಚೂಣಿ ಜ್ಞಾನ ಕಾರ್ಯ ಮತ್ತು ಕಂಪ್ಯೂಟರ್ ಬಳಕೆಯ ಸಾಮರ್ಥ್ಯಗಳೊಂದಿಗೆ ಸಂಯೋಜಿಸುತ್ತದೆ, ಇದು ಮಾಡೆಲ್ ಸಾಧನಗಳನ್ನು ಬಳಸಲು, ಪುನರಾವರ್ತಿಸಲು ಮತ್ತು ಕಡಿಮೆ ಹಸ್ತಚಾಲಿತ ಹಸ್ತಕ್ಷೇಪದೊಂದಿಗೆ ಕೆಲಸವನ್ನು ಇನ್ನಷ್ಟು ಮುಂದಕ್ಕೆ ತಳ್ಳಲು ಸಾಧ್ಯವಾಗುವ ದೀರ್ಘಕಾಲೀನ ಕಾರ್ಯಗಳಲ್ಲಿ ಅತ್ಯಂತ ಮಹತ್ವದ್ದಾಗಿರುತ್ತದೆ. ಇದು SWE-Bench Pro ನಲ್ಲಿ GPT‑5.3‑Codex ಗೆ ಸಮನಾಗಿರುತ್ತದೆ ಅಥವಾ ಅದಕ್ಕಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಜೊತೆಗೆ ರೀಜನಿಂಗ್ ಪ್ರಯತ್ನಗಳಾದ್ಯಂತ ಕಡಿಮೆ ಲೇಟೆನ್ಸಿ ಹೊಂದಿರುತ್ತದೆ.
ನಾವು ನಮ್ಮ ಮಾಡೆಲ್ಗಳ ಉತ್ಪಾದನಾ ನಡವಳಿಕೆಯನ್ನು ನೋಡಿ, ಮತ್ತು ಇದನ್ನು ಆಫ್ಲೈನ್ನಲ್ಲಿ ಸಿಮ್ಯುಲೇಟ್ ಮಾಡುವ ಮೂಲಕ ಲೇಟೆನ್ಸಿಯನ್ನು ಅಂದಾಜಿಸುತ್ತೇವೆ. ಲೇಟೆನ್ಸಿ ಅಂದಾಜು ಉಪಕರಣ ಕರೆ ಅವಧಿ (ಕೋಡ್ ಕಾರ್ಯಗತಗೊಳಿಸುವ ಸಮಯ), ಮಾದರಿಯಾಗಿಸಿದ ಟೋಕನ್ಗಳು ಮತ್ತು ಇನ್ಪುಟ್ ಟೋಕನ್ಗಳನ್ನು ಪರಿಗಣಿಸುತ್ತದೆ. ನೈಜ-ಪ್ರಪಂಚದ ಲೇಟೆನ್ಸಿ ಬಹಳ ಮಟ್ಟಿಗೆ ಬದಲಾಗಬಹುದು ಮತ್ತು ನಮ್ಮ ಅನುಕರಣೆಯಲ್ಲಿ ಸೆರೆಹಿಡಿಯದಿರುವ ಅನೇಕ ಅಂಶಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುತ್ತದೆ. ರೀಜನಿಂಗ್ ಪ್ರಯತ್ನಗಳನ್ನು none ರಿಂದ xhigh ಗೆ ವರ್ಗಾಯಿಸಲಾಯಿತು.
ಟಾಗಲ್ ಆನ್ ಮಾಡಿದಾಗ, Codex ನಲ್ಲಿ /fast mode GPT‑5.4 ಜೊತೆಗೆ 1.5x ವರೆಗೆ ವೇಗವಾದ ಟೋಕನ್ ವೇಗವನ್ನು ನೀಡುತ್ತದೆ. ಇದು ಅದೇ ಮಾಡೆಲ್ ಮತ್ತು ಅದೇ ಬುದ್ಧಿವಂತಿಕೆ, ಕೇವಲ ಇನ್ನಷ್ಟು ವೇಗವಾಗಿ. ಅಂದರೆ ಬಳಕೆದಾರರು ಫ್ಲೋನಲ್ಲಿ ಉಳಿಯುತ್ತಾ ಕೋಡಿಂಗ್ ಕಾರ್ಯಗಳು, ಇಟರೇಶನ್ ಮತ್ತು ಡೀಬಗ್ಗಿಂಗ್ ಮೂಲಕ ಮುಂದುವರಿಯಬಹುದು. ಡೆವಲಪರ್ಗಳು ಪ್ರಾಧಾನ್ಯತೆ ಪ್ರೊಸೆಸಿಂಗ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅನ್ನು ಬಳಸುವ ಮೂಲಕ API ಮೂಲಕ ಅದೇ ವೇಗದ ವೇಗಗಳಲ್ಲಿ GPT‑5.4 ಗೆ ಪ್ರವೇಶಿಸಬಹುದು.
ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಆಂತರಿಕ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ, GPT‑5.4 ಸಂಕೀರ್ಣ ಫ್ರಂಟ್ಎಂಡ್ ಕಾರ್ಯಗಳಲ್ಲಿ ಶ್ರೇಷ್ಠವಾಗಿದೆ ಎಂದು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ; ನಾವು ಹಿಂದೆ ಬಿಡುಗಡೆ ಮಾಡಿದ ಯಾವುದೇ ಮಾಡೆಲ್ಗಳಿಗಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಹೆಚ್ಚು ಸೌಂದರ್ಯಾತ್ಮಕ ಮತ್ತು ಹೆಚ್ಚು ಕಾರ್ಯಕ್ಷಮ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ.
ಮಾಡೆಲ್ನ ಸುಧಾರಿತ ಕಂಪ್ಯೂಟರ್-ಬಳಕೆ ಮತ್ತು ಕೋಡಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳು ಒಟ್ಟಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದನ್ನು ಪ್ರದರ್ಶಿಸುವುದಾಗಿ, ನಾವು “Playwright (Interactive)(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ)” ಎಂದು ಕರೆಯಲಾಗುವ ಪ್ರಯೋಗಾತ್ಮಕ Codex ಕೌಶಲ್ಯವನ್ನೂ ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿದ್ದೇವೆ. ಇದು Codex ಗೆ ವೆಬ್ ಮತ್ತು Electron ಆ್ಯಪ್ಗಳನ್ನು ದೃಶ್ಯಾತ್ಮಕವಾಗಿ ಡೀಬಗ್ ಮಾಡಲು ಅನುಮತಿಸುತ್ತದೆ; ಅದು ನಿರ್ಮಿಸುತ್ತಿರುವಾಗಲೇ, ಅದು ನಿರ್ಮಿಸುತ್ತಿರುವ ಆ್ಯಪ್ ಅನ್ನು ಪರೀಕ್ಷಿಸಲು ಸಹ ಬಳಸಬಹುದು.
GPT‑5.4 ನೊಂದಿಗೆ ನಿರ್ಮಿಸಲಾದ ಥೀಮ್ ಪಾರ್ಕ್ ಸಿಮ್ಯುಲೇಶನ್ ಗೇಮ್, ಒಂದೇ ಸ್ವಲ್ಪ ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಪ್ರಾಂಪ್ಟ್ನಿಂದ, ಬ್ರೌಸರ್ ಪ್ಲೇಟೆಸ್ಟಿಂಗ್ಗಾಗಿ Playwright Interactive ಮತ್ತು ಐಸೊಮೆಟ್ರಿಕ್ ಆಸ್ತಿ ಸೆಟ್ಗಾಗಿ ಇಮೇಜ್ ಜನರೇಶನ್ ಬಳಸಿ. ಈ ಸಿಮ್ಯುಲೇಷನ್ನಲ್ಲಿ ಟೈಲ್-ಆಧಾರಿತ ಪಥ ಸ್ಥಾಪನೆ, ರೈಡ್ ಮತ್ತು ಸೀನರಿ ನಿರ್ಮಾಣ, ಅತಿಥಿಗಳ ಪಥಶೋಧನೆ, ಸಾಲಿನಲ್ಲಿ ನಿಲ್ಲುವಿಕೆ ಮತ್ತು ರೈಡ್ ಚಕ್ರಗಳು ಸೇರಿವೆ; ಜೊತೆಗೆ ಹಣ, ಅತಿಥಿಗಳ ಸಂಖ್ಯೆ, ಸಂತೋಷ, ಸ್ವಚ್ಛತೆ ಮತ್ತು ರೇಟಿಂಗ್ ಮುಂತಾದ ಪಾರ್ಕ್ ಮೆಟ್ರಿಕ್ಗಳು ವಿನ್ಯಾಸವು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಮತ್ತು ಅತಿಥಿಗಳು ಅದಕ್ಕೆ ಹೇಗೆ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತಾರೆ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಏರಿಕೆಯಾಗುತ್ತವೆ ಅಥವಾ ಇಳಿಕೆಯಾಗುತ್ತವೆ. Playwright ಅನ್ನು ಬ್ರೌಸರ್ ಪ್ಲೇಟೆಸ್ಟ್ಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಲು ಬಳಸಲಾಯಿತು: ಪಾರ್ಕ್ ಅನ್ನು ನಿರ್ಮಿಸಿ ಮತ್ತು ವಿಸ್ತರಿಸುವುದು, ಪಥಗಳು ಮತ್ತು ಆಕರ್ಷಣೆಗಳನ್ನು ಇರಿಸುವುದು ಮತ್ತು ತೆಗೆದುಹಾಕುವುದು, ಕ್ಯಾಮೆರಾ ನ್ಯಾವಿಗೇಶನ್ ಪರಿಶೀಲಿಸುವುದು ಮತ್ತು ಅತಿಥಿಗಳು, ಕ್ಯೂಗಳು, ರೈಡ್ ಸ್ಥಿತಿಗಳು ಮತ್ತು UI ಮೆಟ್ರಿಕ್ಗಳು ಹಲವು ಸುತ್ತಿನ ಪ್ಲೇ ಅವಧಿಯಲ್ಲಿ ಸರಿಯಾಗಿ ಅಪ್ಡೇಟ್ ಆಗುತ್ತಿವೆಯೇ ಎಂದು ದೃಢೀಕರಿಸುವುದು.
ಪ್ರಾಂಪ್ಟ್: $playwright-interactive ಮತ್ತು $imagegen ಅನ್ನು ಬಳಸಿ. ನಾನು ಬ್ರೌಸರ್ನಲ್ಲಿ ನಿರ್ಮಿಸಿ ನ್ಯಾವಿಗೇಟ್ ಮಾಡಬಹುದಾದ ಇಂಟರಾಕ್ಟಿವ್ ಐಸೊಮೆಟ್ರಿಕ್ ಥೀಮ್ ಪಾರ್ಕ್ ಸಿಮ್ಯುಲೇಶನ್ ಗೇಮ್ ಅನ್ನು ರಚಿಸಿ. ಒಟ್ಟಾರೆ ದೃಶ್ಯ ವಿಸನ್ ಅನ್ನು ಸ್ಥಾಪಿಸಲು ಮತ್ತು ರೈಡ್ಗಳು, ಪಾತ್ಗಳು, ಭೂಪ್ರದೇಶ, ಮರಗಳು, ನೀರು, ಆಹಾರ ಸ್ಟಾಲ್ಗಳು, ಅಲಂಕಾರಗಳು, ಕಟ್ಟಡಗಳು, ಐಕಾನ್ಗಳು, ಮತ್ತು UI ಚಿತ್ರಣಗಳು ಸೇರಿದಂತೆ ಗೇಮ್ನ ಆಸ್ತಿಗಳನ್ನು ರಚಿಸಲು imagegen ಅನ್ನು ಬಳಸಿ. ಜಗತ್ತು ಐಸೊಮೆಟ್ರಿಕ್ ದೃಷ್ಟಿಕೋನದಿಂದ ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡುವ ಪ್ರೀಮಿಯಂ ಆರ್ಟ್ ಡೈರೆಕ್ಷನ್ನೊಂದಿಗೆ ಏಕಸೂತ್ರ, ಪಾಲಿಷ್ಡ್ ಮತ್ತು ದೃಶ್ಯಾತ್ಮಕವಾಗಿ ಸಮೃದ್ಧವಾಗಿರಬೇಕು. ಅತಿಥಿ ಚಟುವಟಿಕೆ, ರೈಡ್ ಸ್ಥಿತಿ, ಮತ್ತು ಪಾರ್ಕ್ ಬೆಳವಣಿಗೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತಾ ಪಾತ್ಗಳನ್ನು ಇಡಲು ಮತ್ತು ತೆಗೆದುಹಾಕಲು, ಆಕರ್ಷಣೆಗಳನ್ನು ಸೇರಿಸಲು, ದೃಶ್ಯಾವಳಿಯನ್ನು ಸ್ಥಾನಗೊಳಿಸಲು ಮತ್ತು ಪಾರ್ಕ್ನಲ್ಲಿ ಸ್ಮೂತ್ ಆಗಿ ಸಂಚರಿಸಲು ನನಗೆ ಅವಕಾಶ ನೀಡಿ. ನಂಬಬಹುದಾದ ಅತಿಥಿ ಚಲನೆ, ಹಣ, ಸ್ವಚ್ಛತೆ, ಸಾಲಿನಲ್ಲಿ ನಿಲ್ಲುವುದು ಮತ್ತು ಸಂತೋಷದಂತಹ ಸರಳ ಪಾರ್ಕ್ ನಿರ್ವಹಣಾ ವ್ಯವಸ್ಥೆಗಳನ್ನು ಸೇರಿಸಿ ಮತ್ತು ಅನುಭವವು ರಫ್ ಪ್ರೋಟೋಟೈಪ್ನಂತೆ ಅಲ್ಲದೆ ಆಟವಾಡುವಂತ, ಸ್ಪಷ್ಟ ಮತ್ತು ಸಂಪೂರ್ಣವಾಗಿರುವಂತೆ ಮಾಡಿ. ವಾಸ್ತವಿಕತೆಯಿಗಿಂತ ಆಕರ್ಷಣೆ, ಓದಲು ಸುಲಭತೆ ಮತ್ತು ಬಲವಾದ ಗೇಮ್ ಫೀಲ್ಗೆ ಆದ್ಯತೆ ನೀಡಿ.
ಪ್ಲೇ ಟೆಸ್ಟಿಂಗ್ ಮಾಡುವಾಗ, ಆಟದ ಹಲವು ರೌಂಡ್ಗಳ ಮೂಲಕ ಪಾರ್ಕ್ ಅನ್ನು ನಿರ್ಮಿಸಿ ಮತ್ತು ವಿಸ್ತರಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ. ಪ್ಲೇಸ್ಮೆಂಟ್ ಮತ್ತು ನ್ಯಾವಿಗೇಶನ್ ಸುಗಮವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತವೆ ಎಂದು ಪರಿಶೀಲಿಸಿ. ಅತಿಥಿಗಳು ಪಾರ್ಕ್ ಲೇಔಟ್ ಮತ್ತು ಆಕರ್ಷಣೆಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತಾರೆ ಎಂದು ದೃಢಪಡಿಸಿ. ದೃಶ್ಯಗಳು, UI ಮತ್ತು ಇಂಟರ್ಯಾಕ್ಷನ್ಗಳು ಸ್ಥಿರವಾಗಿಯೂ ಏಕಸಂಯೋಜಿತವಾಗಿಯೂ ಅನಿಸುತ್ತವೆ ಎಂದು ಖಚಿತಪಡಿಸಿ.
“ನಮ್ಮ ಎಂಜಿನಿಯರ್ಗಳು GPT-5.4 ಅನ್ನು ಹಿಂದಿನ ಮಾಡೆಲ್ಗಳಿಗಿಂತ ಹೆಚ್ಚು ನೈಸರ್ಗಿಕ ಮತ್ತು ದೃಢವಾದ ಮಾಡೆಲ್ ಎಂದು ಕಂಡುಕೊಂಡರು. ಇದು ಅಸ್ಪಷ್ಟ ಸಮಸ್ಯೆಗಳ ಮೂಲಕ ತನ್ನನ್ನೇ ಮರು-ಊಹಿಸಿಕೊಳ್ಳದೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ, ಮತ್ತು ಕೆಲಸವನ್ನು ಒಂದೇ ಸಮಯದಲ್ಲಿ ನಡೆಸುವ ಮೂಲಕ ವಿಷಯಗಳು ಮುಂದುವರಿಯುವಂತೆ ಮಾಡಲು ಇದು ಮುಂಚಿತವಾಗಿ ಕ್ರಮ ಕೈಗೊಳ್ಳುತ್ತದೆ.”
GPT‑5.4 ನೊಂದಿಗೆ, ಹೊರಗಿನ ಉಪಕರಣಗಳೊಂದಿಗೆ ಮಾಡೆಲ್ಗಳು ಕೆಲಸ ಮಾಡುವ ವಿಧಾನವನ್ನು ನಾವು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸಿದ್ದೇವೆ. ಏಜೆಂಟ್ಗಳು ಈಗ ದೊಡ್ಡ ಟೂಲ್ ಇಕೋಸಿಸ್ಟಮ್ಗಳಾದ್ಯಂತ ಕಾರ್ಯನಿರ್ವಹಿಸಬಹುದು, ಸರಿಯಾದ ಟೂಲ್ಗಳನ್ನು ಇನ್ನಷ್ಟು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಆಯ್ಕೆಮಾಡಬಹುದು, ಮತ್ತು ಕಡಿಮೆ ವೆಚ್ಚ ಮತ್ತು ಲೇಟೆನ್ಸಿಯೊಂದಿಗೆ ಬಹು-ಹಂತದ ವರ್ಕ್ಫ್ಲೋಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಬಹುದು.
API ನಲ್ಲಿ, GPT‑5.4 ಟೂಲ್ ಹುಡುಕಾಟ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ)ವನ್ನು ಪರಿಚಯಿಸುತ್ತದೆ, ಇದು ಅನೇಕ ಟೂಲ್ಗಳನ್ನು ನೀಡಿದಾಗ ಮಾಡೆಲ್ಗಳು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಕೆಲಸ ಮಾಡಲು ಅನುಮತಿಸುತ್ತದೆ.
ಹಿಂದೆ, ಒಂದು ಮಾಡೆಲ್ಗೆ ಟೂಲ್ಗಳನ್ನು ನೀಡಿದಾಗ, ಎಲ್ಲಾ ಟೂಲ್ ವ್ಯಾಖ್ಯಾನಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್ನಲ್ಲಿ ಮುಂಚಿತವಾಗಿಯೇ ಸೇರಿಸಲಾಗುತ್ತಿತ್ತು. ಅನೇಕ ಪರಿಕರಗಳಿರುವ ವ್ಯವಸ್ಥೆಗಳಿಗೆ, ಇದು ಪ್ರತಿಯೊಂದು ವಿನಂತಿಗೆ ಸಾವಿರಾರು—ಅಥವಾ ದಶಸಾವಿರಾರು—ಟೋಕನ್ಗಳನ್ನು ಸೇರಿಸಬಹುದು, ವೆಚ್ಚವನ್ನು ಹೆಚ್ಚಿಸಿ, ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ನಿಧಾನಗೊಳಿಸಿ ಮತ್ತು ಮಾಡೆಲ್ ಎಂದಿಗೂ ಬಳಸದೇ ಇರಬಹುದಾದ ಮಾಹಿತಿಯಿಂದ ಸಂದರ್ಭವನ್ನು ತುಂಬಿಬಿಡುತ್ತದೆ.
ಟೂಲ್ ಹುಡುಕಾಟದೊಂದಿಗೆ, GPT‑5.4 ಲಭ್ಯವಿರುವ ಟೂಲ್ಗಳ ಸರಳ ಪಟ್ಟಿಯ ಜೊತೆಗೆ ಟೂಲ್ ಹುಡುಕಾಟ ಸಾಮರ್ಥ್ಯವನ್ನು ಪಡೆಯುತ್ತದೆ. ಮಾಡೆಲ್ಗೆ ಟೂಲ್ ಅನ್ನು ಬಳಸಬೇಕಾದಾಗ, ಆ ಟೂಲ್ನ ವ್ಯಾಖ್ಯಾನವನ್ನು ಹುಡುಕಿ, ಆ ಕ್ಷಣದಲ್ಲಿ ಅದನ್ನು ಸಂಭಾಷಣೆಗೆ ಸೇರಿಸಬಹುದು.
ಈ ವಿಧಾನವು ಟೂಲ್-ಹೆವಿ ವರ್ಕ್ಫ್ಲೋಗಳಿಗೆ ಅಗತ್ಯವಿರುವ ಟೋಕನ್ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಗಣನೀಯವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಕ್ಯಾಶ್ ಅನ್ನು ಉಳಿಸುತ್ತದೆ, ಇದರಿಂದ ವಿನಂತಿಗಳು ಇನ್ನಷ್ಟು ವೇಗವಾಗಿ ಮತ್ತು ಕಡಿಮೆ ವೆಚ್ಚದಲ್ಲಿ ಪೂರ್ಣಗೊಳ್ಳುತ್ತವೆ. ಇದು ಏಜೆಂಟ್ಗಳಿಗೆ ಹೆಚ್ಚು ದೊಡ್ಡ ಪರಿಕರ ಪರಿಸರ ವ್ಯವಸ್ಥೆಗಳೊಂದಿಗೆ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಕೆಲಸ ಮಾಡಲು ಸಹ ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ. ಹತ್ತಾರು ಸಾವಿರಗಳಷ್ಟು ಟೂಲ್ ವ್ಯಾಖ್ಯಾನಗಳ ಟೋಕನ್ಗಳನ್ನು ಹೊಂದಿರಬಹುದಾದ MCP ಸರ್ವರ್ಗಳಿಗಾಗಿ, ಕಾರ್ಯಕ್ಷಮತೆಯ ಲಾಭಗಳು ಗಮನಾರ್ಹವಾಗಿರಬಹುದು.
ಕಾರ್ಯಕ್ಷಮತೆಯ ಲಾಭಗಳನ್ನು ಪ್ರದರ್ಶಿಸಲು, ನಾವು Scale’s MCP Atlas(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಬೆಂಚ್ಮಾರ್ಕ್ ನಿಂದ 250 ಕಾರ್ಯಗಳನ್ನು ಎರಡು ಮೋಡ್ಗಳಲ್ಲಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಿದೆವು: (1) ಪ್ರತಿಯೊಂದು MCP ಕಾರ್ಯವನ್ನು ನೇರವಾಗಿ ಮಾಡೆಲ್ ಸಂದರ್ಭದಲ್ಲೇ ಬಹಿರಂಗಪಡಿಸುವುದು ಮತ್ತು (2) ಎಲ್ಲಾ MCP ಸರ್ವರ್ಗಳನ್ನು ಟೂಲ್ ಹುಡುಕಾಟದ ಹಿಂದೆ ಇರಿಸುವುದು. ಟೂಲ್-ಹುಡುಕಾಟ ಸಂರಚನೆಯು ಅದೇ ನಿಖರತೆಯನ್ನು ಸಾಧಿಸುವಾಗ ಒಟ್ಟು ಟೋಕನ್ ಬಳಕೆಯನ್ನು 47% ಕಡಿಮೆ ಮಾಡಿತು.
ಉದಾಹರಣೆ ಟೋಕನ್ ಎಣಿಕೆಗಳು MCP-Atlas ಸಾರ್ವಜನಿಕ ಡೇಟಾಸೆಟ್ನಲ್ಲಿನ 250 ಕಾರ್ಯಗಳ ಸರಾಸರಿಯಿಂದ ಬರುತ್ತವೆ.
GPT‑5.4 ಟೂಲ್ ಕಾಲಿಂಗ್ನ್ನೂ ಸುಧಾರಿಸುತ್ತದೆ, ಇದರಿಂದ ರೀಜನಿಂಗ್ ವೇಳೆ, ವಿಶೇಷವಾಗಿ API ಯಲ್ಲಿ, ಟೂಲ್ಗಳನ್ನು ಯಾವಾಗ ಮತ್ತು ಹೇಗೆ ಬಳಸಬೇಕು ಎಂದು ನಿರ್ಧರಿಸುವಾಗ ಅದು ಇನ್ನಷ್ಟು ನಿಖರ ಮತ್ತು ಪರಿಣಾಮಕಾರಿಯಾಗುತ್ತದೆ. GPT‑5.2 ಗೆ ಹೋಲಿಸಿದರೆ, Toolathlon ನಲ್ಲಿ ಕಡಿಮೆ ಟರ್ನ್ಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ನಿಖರತೆಯನ್ನು ಸಾಧಿಸುತ್ತದೆ; Toolathlon ಎಂಬುದು AI ಏಜೆಂಟ್ಗಳು ನೈಜ ಜಗತ್ತಿನ ಸಾಧನಗಳು ಮತ್ತು API ಗಳನ್ನು ಬಳಸಿ ಬಹು-ಹಂತದ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುವಲ್ಲಿ ಎಷ್ಟು ಚೆನ್ನಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಪರೀಕ್ಷಿಸುವ ಒಂದು ಮಾನದಂಡವಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಒಂದು ಏಜೆಂಟ್ ಇಮೇಲ್ಗಳನ್ನು ಓದಬೇಕು, ಅಸೈನ್ಮೆಂಟ್ ಅಟ್ಯಾಚ್ಮೆಂಟ್ಗಳನ್ನು ಹೊರತೆಗೆಯಬೇಕು, ಅವುಗಳನ್ನು ಅಪ್ಲೋಡ್ ಮಾಡಬೇಕು, ಅವುಗಳಿಗೆ ಗ್ರೇಡ್ ನೀಡಬೇಕು ಮತ್ತು ಫಲಿತಾಂಶಗಳನ್ನು ಸ್ಪ್ರೆಡ್ಶೀಟ್ನಲ್ಲಿ ದಾಖಲಿಸಬೇಕು.
ಟೂಲ್ ಯೀಲ್ಡ್ ಎಂದರೆ ಸಹಾಯಕನು ಟೂಲ್ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಕಾಯಲು ಯೀಲ್ಡ್ ಮಾಡುವುದಾಗಿದೆ. 3 ಟೂಲ್ಗಳನ್ನು ಪ್ಯಾರಲಲ್ನಲ್ಲಿ ಕರೆಯಲಾಗಿದ್ದು, ನಂತರ ಇನ್ನೂ 3 ಟೂಲ್ಗಳನ್ನು ಪ್ಯಾರಲಲ್ನಲ್ಲಿ ಕರೆಯಲಾಗಿದ್ದರೆ, ಯೀಲ್ಡ್ ಸಂಖ್ಯೆ 2 ಆಗಿರುತ್ತದೆ. ಟೂಲ್ ಯೀಲ್ಡ್ ಗಳು ಟೂಲ್ ಕಾಲ್ಗಳಿಗಿಂತ ಲೇಟೆನ್ಸಿಯ ಉತ್ತಮ ಪ್ರಾಕ್ಸಿ, ಏಕೆಂದರೆ ಅವು ಪ್ಯಾರಲಲೈಜೇಶನ್ನ ಪ್ರಯೋಜನಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತವೆ.
ಲೇಟೆನ್ಸಿ-ಸಂವೇದನಶೀಲ ಬಳಕೆ ಪ್ರಕರಣಗಳಲ್ಲಿ ರೀಜನಿಂಗ್ ಪ್ರಯತ್ನವನ್ನು None ಆಗಿ ಇಡುವುದನ್ನು ಆದ್ಯತೆ ನೀಡುವ ಸಂದರ್ಭಗಳಿಗೆ, GPT‑5.4 ತನ್ನ ಪೂರ್ವವರ್ಗಗಳಿಗಿಂತ ಇನ್ನಷ್ಟು ಸುಧಾರಿಸಿದೆ.
τ2-ಬೆಂಚ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ, ಒಂದು ಮಾಡೆಲ್ ಗ್ರಾಹಕ ಸೇವಾ ಕಾರ್ಯವನ್ನು ಸಾಧಿಸಲು ಉಪಕರಣಗಳನ್ನು ಬಳಸಬೇಕು, ಅಲ್ಲಿ ವಿಶ್ವದ ಸ್ಥಿತಿಯ ಮೇಲೆ ಸಂವಹನ ನಡೆಸಲು ಮತ್ತು ಕ್ರಮ ಕೈಗೊಳ್ಳಲು ಸಾಧ್ಯವಾಗುವ ನಕಲಿ ಬಳಕೆದಾರರಿರಬಹುದು. ರೀಜನಿಂಗ್ ಪ್ರಯತ್ನವನ್ನು None ಎಂದು ಹೊಂದಿಸಲಾಗಿತ್ತು.
GPT‑5.4 ಏಜೆಂಟಿಕ್ ವೆಬ್ ಹುಡುಕಾಟದಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ. BrowseComp ನಲ್ಲಿ, AI ಏಜೆಂಟ್ಗಳು ಕಷ್ಟವಾಗಿ ಪತ್ತೆಯಾಗುವ ಮಾಹಿತಿಯನ್ನು ಹುಡುಕಲು ವೆಬ್ ಅನ್ನು ನಿರಂತರವಾಗಿ ಬ್ರೌಸ್ ಮಾಡುವಲ್ಲಿ ಎಷ್ಟು ಚೆನ್ನಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಎಂಬುದರ ಮಾಪನದಲ್ಲಿ, GPT‑5.4 GPT‑5.2 ಗಿಂತ 17%abs ಜಿಗಿತ ಸಾಧಿಸುತ್ತದೆ ಮತ್ತು GPT‑5.4 Pro 89.3% ಹೊಸ ಅತ್ಯಾಧುನಿಕ ಸ್ಥಿತಿಯನ್ನು ಸ್ಥಾಪಿಸಿದೆ.
ಪ್ರಾಯೋಗಿಕವಾಗಿ, ಇದರರ್ಥ GPT‑5.4 Thinking ವೆಬ್ನಲ್ಲಿನ ಅನೇಕ ಮೂಲಗಳಿಂದ ಮಾಹಿತಿಯನ್ನು ಒಟ್ಟುಗೂಡಿಸುವ ಅಗತ್ಯವಿರುವ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸುವಲ್ಲಿ ಹೆಚ್ಚು ಶಕ್ತಿಯುತವಾಗಿದೆ. ಇದು ಅತ್ಯಂತ ಸಂಬಂಧಿತ ಮೂಲಗಳನ್ನು ಗುರುತಿಸಲು, ವಿಶೇಷವಾಗಿ “ಬವಣೆಯಲ್ಲಿ ಸೂಜಿ” ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ, ಅನೇಕ ಸುತ್ತುಗಳಲ್ಲಿ ಸ್ಥಿರವಾಗಿ ಹುಡುಕಾಟ ನಡೆಸಬಹುದು ಮತ್ತು ಅವುಗಳನ್ನು ಸ್ಪಷ್ಟ, ತರ್ಕಬದ್ಧ ಉತ್ತರವಾಗಿ ಸಂಶ್ಲೇಷಿಸಬಹುದು.
BrowseComp ನಲ್ಲಿ, ಕಂಟಾಮಿನೇಶನ್ ತಡೆಯಲು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯ ನ್ಯಾಯಯುತ ಅಳತೆಯನ್ನು ಖಚಿತಪಡಿಸಲು, ಮೌಲ್ಯಮಾಪನದಿಂದ ಬೆಂಚ್ಮಾರ್ಕ್ ಉತ್ತರಗಳನ್ನು ಹೊಂದಿರುವ ವೆಬ್ಸೈಟ್ಗಳನ್ನು ಹೊರತುಪಡಿಸುವ ಹುಡುಕಾಟ ಬ್ಲಾಕ್ಲಿಸ್ಟ್ ಅನ್ನು ನಾವು ಬಳಸಿದ್ದೇವೆ. GPT‑5.4 ಅನ್ನು GPT‑5.2 ಗಿಂತ ನಂತರದ ದಿನಾಂಕದಲ್ಲಿ ಅಳೆಯಲಾಯಿತು, ಆದ್ದರಿಂದ ಸ್ಕೋರ್ಗಳು ಮಾಡೆಲ್ನಲ್ಲಿನ ಬದಲಾವಣೆಗಳು, ನಮ್ಮ ಹುಡುಕಾಟ ವ್ಯವಸ್ಥೆ ಮತ್ತು ಇಂಟರ್ನೆಟ್ನ ಸ್ಥಿತಿಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತವೆ. GPT‑5.4 ಅನ್ನು ದೀರ್ಘವಾದ, ನವೀಕರಿಸಿದ ಬ್ಲಾಕ್ಲಿಸ್ಟ್ನೊಂದಿಗೆ ಪರೀಕ್ಷಿಸಲಾಯಿತು. ಮಾಡೆಲ್ಗಳು ChatGPT ಹುಡುಕಾಟ ಸಾಧನವನ್ನು ಬಳಸುತ್ತವೆ, ಇದು API ಹುಡುಕಾಟದಿಂದ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಹೊಂದಿರಬಹುದು.
“GPT-5.4 xhigh ಬಹು-ಹಂತದ ಸಾಧನ ಬಳಕೆಗೆ ಹೊಸ ಅತ್ಯಾಧುನಿಕ ಮಟ್ಟವಾಗಿದೆ. Zapier ಉದ್ಯಮದಲ್ಲಿನ ಅತ್ಯಂತ ಕಠಿಣ ಟೂಲ್ ಬಳಕೆ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳ ಕೆಲವು ಅನ್ನು ನಡೆಸುತ್ತದೆ, ನೂರಾರು ಉನ್ನತ ನೈಜ-ಜಗತ್ತಿನ ವರ್ಕ್ಫ್ಲೋಗಳಾದ್ಯಂತ ಮಾಡೆಲ್ಗಳನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ. GPT-5.4 ಹಿಂದಿನ ಮಾಡೆಲ್ಗಳು ಕೈಬಿಟ್ಟಿದ್ದ ಕೆಲಸವನ್ನು ಪೂರ್ಣಗೊಳಿಸಿತು - ಇಂದಿನವರೆಗೆ ಅತ್ಯಂತ ದೃಢನಿಶ್ಚಯದ ಮಾಡೆಲ್.”
Codex ಅದು ಕೆಲಸ ಆರಂಭಿಸುವಾಗ ತನ್ನ ವಿಧಾನವನ್ನು ಹೇಗೆ ವಿವರಿಸುತ್ತದೋ ಅದೇ ರೀತಿಯಲ್ಲಿ, GPT‑5.4 Thinking, ChatGPT ನಲ್ಲಿ ಈಗ ದೀರ್ಘ, ಹೆಚ್ಚು ಸಂಕೀರ್ಣ ಪ್ರಶ್ನೆಗಳಿಗೆ ಪೂರ್ವಭಾವಿಯೊಂದಿಗೆ ತನ್ನ ಕೆಲಸವನ್ನು ರೂಪರೇಖೆಗೊಳಿಸುತ್ತದೆ. ನೀವು ಸೂಚನೆಗಳನ್ನು ಕೂಡ ಸೇರಿಸಬಹುದು ಅಥವಾ ಪ್ರತಿಕ್ರಿಯೆಯ ಮಧ್ಯದಲ್ಲೇ ಅದರ ದಿಕ್ಕನ್ನು ಸರಿಹೊಂದಿಸಬಹುದು. ಇದು ಮತ್ತೆ ಪ್ರಾರಂಭಿಸದೆ ಅಥವಾ ಅನೇಕ ಹೆಚ್ಚುವರಿ ಟರ್ನ್ಗಳ ಅಗತ್ಯವಿಲ್ಲದೆ, ನೀವು ಬಯಸುವ ನಿಖರ ಫಲಿತಾಂಶದತ್ತ ಮಾಡೆಲ್ ಅನ್ನು ಮಾರ್ಗದರ್ಶಿಸಲು ಸುಲಭಗೊಳಿಸುತ್ತದೆ. ಈ ವೈಶಿಷ್ಟ್ಯ ಈಗ chatgpt.com(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಮತ್ತು Android ಆ್ಯಪ್ನಲ್ಲಿ ಲಭ್ಯವಿದೆ, iOS ಆ್ಯಪ್ಗೆ ಶೀಘ್ರದಲ್ಲೇ ಲಭ್ಯವಾಗಲಿದೆ.
ಮಾಡೆಲ್ ಕಠಿಣ ಕಾರ್ಯಗಳಲ್ಲಿ ಹೆಚ್ಚು ಸಮಯ ಯೋಚಿಸಬಹುದು, ಜೊತೆಗೆ ಸಂಭಾಷಣೆಯ ಹಿಂದಿನ ಹಂತಗಳ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ಬಲವಾದ ಅರಿವನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳುತ್ತದೆ. ಇದು ದೀರ್ಘ ವರ್ಕ್ಫ್ಲೋಗಳು ಮತ್ತು ಹೆಚ್ಚು ಸಂಕೀರ್ಣ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಅನುಮತಿಸುತ್ತದೆ, ಜೊತೆಗೆ ಉತ್ತರಗಳನ್ನು ಸಂಪೂರ್ಣ ಅವಧಿಯಲ್ಲೂ ಸಮ್ಮತವಾಗಿಯೂ ಸಂಬಂಧಿತವಾಗಿಯೂ ಇರಿಸುತ್ತದೆ.
ಈ ವೀಡಿಯೊವನ್ನು ಚಿತ್ರಣಾತ್ಮಕ ಉದ್ದೇಶಗಳಿಗಾಗಿ ವೇಗಗೊಳಿಸಲಾಗಿದೆ.
ಇತ್ತೀಚಿನ ತಿಂಗಳುಗಳಲ್ಲಿ, GPT‑5.3‑Codex ಜೊತೆಗೆ ನಾವು ಪರಿಚಯಿಸಿದ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳನ್ನು ಮುಂದುವರಿಸಿ ಸುಧಾರಿಸುತ್ತಿದ್ದೇವೆ ಮತ್ತು ನಿಯೋಜನೆಗಾಗಿ GPT‑5.4 ಅನ್ನು ಸಿದ್ಧಪಡಿಸುತ್ತಿದ್ದೇವೆ. GPT‑5.3‑Codex ಗೆ ಸಮಾನವಾಗಿ, ನಾವು ನಮ್ಮ ಪ್ರಿಪೇರ್ಡ್ನೆಸ್ ಫ್ರೇಮ್ವರ್ಕ್ ಅಡಿಯಲ್ಲಿ GPT‑5.4 ಅನ್ನು ಹೈ ಸೈಬರ್ ಸಾಮರ್ಥ್ಯವಾಗಿ ಪರಿಗಣಿಸುತ್ತಿದ್ದೇವೆ ಮತ್ತು ಸಿಸ್ಟಮ್ ಕಾರ್ಡ್ ನಲ್ಲಿ ದಾಖಲಿಸಿರುವಂತೆ ಸಂಬಂಧಿತ ರಕ್ಷಣೆಗಳೊಂದಿಗೆ ಅದನ್ನು ನಿಯೋಜಿಸುತ್ತಿದ್ದೇವೆ. ಇವುಗಳಲ್ಲಿ ವಿಸ್ತರಿತ ಸೈಬರ್ ಸುರಕ್ಷತಾ ಸ್ಟ್ಯಾಕ್, ಮೇಲ್ವಿಚಾರಣಾ ವ್ಯವಸ್ಥೆಗಳು, ನಂಬಿಕಸ್ಥ ಪ್ರವೇಶ ನಿಯಂತ್ರಣಗಳು ಮತ್ತು ಜೀರೋ ಡೇಟಾ ರಿಟೆನ್ಷನ್ (ZDR) ಸರ್ಫೇಸ್ಗಳಲ್ಲಿರುವ ಗ್ರಾಹಕರಿಗಾಗಿ ಹೆಚ್ಚಿನ-ಅಪಾಯದ ವಿನಂತಿಗಳಿಗೆ ಅಸಿಂಕ್ರೋನಸ್ ತಡೆಹಿಡಿಯುವಿಕೆ ಸೇರಿವೆ, ಜೊತೆಗೆ ವಿಶಾಲ ಭದ್ರತಾ ಪರಿಸರ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ನಿರಂತರ ಹೂಡಿಕೆ ಕೂಡ ಇದೆ.
ಸೈಬರ್ ಭದ್ರತಾ ಸಾಮರ್ಥ್ಯಗಳು ಸ್ವಭಾವತಃ ದ್ವಿ-ಬಳಕೆಯದ್ದಾಗಿರುವುದರಿಂದ, ನಾವು ನಮ್ಮ ನೀತಿಗಳು ಮತ್ತು ವರ್ಗೀಕಾರಕಗಳನ್ನು ಸಮತೋಲನಗೊಳಿಸುತ್ತಿರುವಾಗ ನಿಯೋಜನೆಗೆ ಮುನ್ನೆಚ್ಚರಿಕೆಯ ಕ್ರಮವನ್ನು ಅನುಸರಿಸುತ್ತೇವೆ. ZDR ಸರ್ಫೇಸ್ಗಳಲ್ಲಿನ ಕೆಲವು ಗ್ರಾಹಕರಿಗಾಗಿ, ವಿನಂತಿ-ಮಟ್ಟದ ತಡೆಹಿಡಿಯುವಿಕೆ ನಮ್ಮ ಸೈಬರ್ ಅಪಾಯ ತಗ್ಗಿಸುವಿಕೆಯ ಸ್ಟ್ಯಾಕ್ನ ಭಾಗವಾಗಿಯೇ ಉಳಿದಿದೆ; ವರ್ಗೀಕಾರಕಗಳು ಇನ್ನೂ ಸುಧಾರಿಸುತ್ತಿರುವುದರಿಂದ, ಈ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳನ್ನು ನಾವು ಮುಂದುವರಿಸಿ ಪರಿಷ್ಕರಿಸುತ್ತಿರುವಂತೆ ಕೆಲವು ತಪ್ಪು ಸಕಾರಾತ್ಮಕ ಅಂಶಗಳು ಸಂಭವಿಸಬಹುದು. ಈ ನವೀಕರಣಗಳು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಸುಧಾರಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿವೆ; ಇದರಲ್ಲಿ ಅನಗತ್ಯ ನಿರಾಕರಣೆಗಳು ಮತ್ತು ಅತಿಯಾಗಿ ಎಚ್ಚರಿಕೆಗಳಿರುವ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು ಸೇರಿದೆ, ಜೊತೆಗೆ ದುರುಪಯೋಗದ ವಿರುದ್ಧ ಬಲವಾದ ರಕ್ಷಣೆಗಳನ್ನು ಉಳಿಸಿಕೊಳ್ಳುತ್ತದೆ.
ಚೈನ್-ಆಫ್-ಥಾಟ್ (CoT) ಮೇಲ್ವಿಚಾರಣೀಯತೆಯ ಕುರಿತು ನಮ್ಮ ಸುರಕ್ಷತಾ ಸಂಶೋಧನೆಯನ್ನು ನಾವು ಮುಂದುವರಿಸಿದ್ದೇವೆ, ಮಾಡೆಲ್ಗಳು ಹೇಗೆ ತಾರ್ಕಿಕವಾಗಿ ಯೋಚಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಉತ್ತಮವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಮತ್ತು ಸಂಭವನೀಯ ತಪ್ಪು ವರ್ತನೆಯನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಸಹಾಯ ಮಾಡಲು. ಈ ಕೆಲಸದ ಭಾಗವಾಗಿ, ನಾವು ಹೊಸ ಓಪನ್-ಸೋರ್ಸ್ ಮೌಲ್ಯಮಾಪನವನ್ನು ಪರಿಚಯಿಸುತ್ತೇವೆ, CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆ, ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ತಪ್ಪಿಸಿಕೊಳ್ಳಲು ಮಾಡೆಲ್ಗಳು ತಮ್ಮ ರೀಜನಿಂಗ್ ಅನ್ನು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಮರೆಮಾಚಬಹುದೇ ಎಂಬುದನ್ನು ಅಳೆಯುತ್ತದೆ. ನಾವು ಕಂಡುಕೊಂಡಿದ್ದು GPT‑5.4 Thinking ತನ್ನ CoT ಅನ್ನು ನಿಯಂತ್ರಿಸುವ ಸಾಮರ್ಥ್ಯ ಕಡಿಮೆಯಾಗಿದೆ, ಇದು ಸುರಕ್ಷತೆಗೆ ಧನಾತ್ಮಕ ಗುಣಲಕ್ಷಣವಾಗಿದೆ, ಮಾಡೆಲ್ಗೆ ತನ್ನ ರೀಜನಿಂಗ್ ಅನ್ನು ಮರೆಮಾಡುವ ಸಾಮರ್ಥ್ಯ ಇಲ್ಲವೆಂದು ಸೂಚಿಸುತ್ತದೆ ಮತ್ತು CoT ಮೇಲ್ವಿಚಾರಣೆ ಪರಿಣಾಮಕಾರಿ ಸುರಕ್ಷತಾ ಸಾಧನವಾಗಿಯೇ ಉಳಿದಿದೆ.
GPT‑5.4 ಇಂದು ChatGPT ಮತ್ತು Codex ನಲ್ಲಿ ಕ್ರಮೇಣ ಲಭ್ಯವಾಗಲು ಪ್ರಾರಂಭಿಸುತ್ತಿದೆ. API ನಲ್ಲಿ, GPT‑5.4 ಈಗ gpt-5.4 ರೂಪದಲ್ಲಿ ಲಭ್ಯವಿದೆ. GPT‑5.4 Pro API ನಲ್ಲಿ gpt-5.4-pro ಎಂದು ಸಹ ಲಭ್ಯವಿದೆ ಅತ್ಯಂತ ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳಲ್ಲಿ ಗರಿಷ್ಠ ಕಾರ್ಯಕ್ಷಮತೆ ಬೇಕಿರುವ ಡೆವಲಪರ್ಗಳಿಗಾಗಿ.
ChatGPT ನಲ್ಲಿ, GPT‑5.4 Thinking ಇಂದಿನಿಂದ ChatGPT Plus, Team ಮತ್ತು Pro ಬಳಕೆದಾರರಿಗೆ ಲಭ್ಯವಿದೆ, GPT‑5.2 Thinking ಬದಲಿಯಾಗಿ. GPT‑5.2 Thinking ಪಾವತಿಸಿದ ಬಳಕೆದಾರರಿಗೆ ಮೂರು ತಿಂಗಳುಗಳ ಕಾಲ ಮಾಡೆಲ್ ಪಿಕ್ಕರ್ನ ಲೆಗಸಿ ಮಾಡೆಲ್ ವಿಭಾಗದ ಅಡಿಯಲ್ಲಿ ಲಭ್ಯವಿರುತ್ತದೆ, ನಂತರ ಅದನ್ನು ಜೂನ್ 5, 2026 ರಂದು ನಿವೃತ್ತಿಗೊಳಿಸಲಾಗುತ್ತದೆ. Enterprise ಮತ್ತು Edu ಪ್ಲಾನ್ಗಳಲ್ಲಿರುವವರು ನಿರ್ವಾಹಕ ಸೆಟ್ಟಿಂಗ್ಗಳ ಮೂಲಕ ಆರಂಭಿಕ ಪ್ರವೇಶವನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಬಹುದು. GPT‑5.4 Pro, Pro ಮತ್ತು Enterprise ಪ್ಲಾನ್ಗಳಿಗೆ ಲಭ್ಯವಿದೆ. ChatGPT ನಲ್ಲಿ GPT‑5.4 Thinking ಗಾಗಿನ ಸಂದರ್ಭ ವಿಂಡೋಗಳು(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) GPT‑5.2 Thinking ನಿಂದ ಬದಲಾಗದೆ ಉಳಿಯುತ್ತವೆ.
GPT‑5.4 ನಮ್ಮ ಮೊದಲ ಮುಖ್ಯ ಶ್ರೇಣಿಯ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ ಆಗಿದ್ದು, ಇದು GPT‑5.3‑codex ನ ಅತ್ಯಾಧುನಿಕ ಕೋಡಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು ಅದು ChatGPT, API ಮತ್ತು Codex ನಲ್ಲಿ ಬಿಡುಗಡೆ ಆಗುತ್ತಿದೆ. ಆ ಜಿಗಿತವನ್ನು ಪ್ರತಿಬಿಂಬಿಸಲು ಮತ್ತು Codex ಬಳಸುವಾಗ ಮಾಡೆಲ್ಗಳ ಆಯ್ಕೆಯನ್ನು ಸರಳಗೊಳಿಸಲು ನಾವು ಇದನ್ನು GPT‑5.4 ಎಂದು ಕರೆಯುತ್ತಿದ್ದೇವೆ. ಕಾಲಕ್ರಮೇಣ, ನಮ್ಮ Instant ಮಾಡೆಲ್ಗಳು ಮತ್ತು Thinking ಮಾಡೆಲ್ಗಳು ವಿಭಿನ್ನ ವೇಗಗಳಲ್ಲಿ ಅಭಿವೃದ್ಧಿಯಾಗುತ್ತವೆ ಎಂದು ನೀವು ನಿರೀಕ್ಷಿಸಬಹುದು.
Codex ನಲ್ಲಿ GPT‑5.4 1M ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋಗೆ ಪ್ರಾಯೋಗಿಕ ಬೆಂಬಲವನ್ನು ಒಳಗೊಂಡಿದೆ. ಡೆವಲಪರ್ಸ್ model_context_window ಮತ್ತು model_auto_compact_token_limit ಅನ್ನು ಕಾನ್ಫಿಗರ್ ಮಾಡುವ ಮೂಲಕ ಇದನ್ನು ಪ್ರಯತ್ನಿಸಬಹುದು. ಪ್ರಮಾಣಿತ 272K ಸಂದರ್ಭ ವಿಂಡೋವನ್ನು ಮೀರಿಸುವ ವಿನಂತಿಗಳು ಬಳಕೆಯ ಮಿತಿಗಳ ವಿರುದ್ಧ ಸಾಮಾನ್ಯ ದರದ 2x ದರದಲ್ಲಿ ಎಣಿಸಲಾಗುತ್ತವೆ.
API ನಲ್ಲಿ, GPT‑5.4 ಅನ್ನು GPT‑5.2 ಗಿಂತ ಪ್ರತಿ ಟೋಕನ್ಗೆ ಹೆಚ್ಚು ದರದಲ್ಲಿ ಬೆಲೆ ನಿಗದಿಪಡಿಸಲಾಗಿದೆ; ಇದು ಅದರ ಸುಧಾರಿತ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ, ಹಾಗೆಯೇ ಅದರ ಹೆಚ್ಚಿನ ಟೋಕನ್ ದಕ್ಷತೆ ಅನೇಕ ಕಾರ್ಯಗಳಿಗೆ ಅಗತ್ಯವಿರುವ ಒಟ್ಟು ಟೋಕನ್ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಬ್ಯಾಚ್ ಮತ್ತು ಫ್ಲೆಕ್ಸ್ ಪ್ರೈಸಿಂಗ್ ಸ್ಟ್ಯಾಂಡರ್ಡ್ API ದರದ ಅರ್ಧದಷ್ಟು ದರದಲ್ಲಿ ಲಭ್ಯವಿದೆ, ಆದರೆ ಪ್ರಾಥಮಿಕ ಪ್ರೊಸೆಸಿಂಗ್ ಸ್ಟ್ಯಾಂಡರ್ಡ್ API ದರದ ದ್ವಿಗುಣ ದರದಲ್ಲಿ ಲಭ್ಯವಿದೆ.
API ಮಾಡೆಲ್ | ಇನ್ಪುಟ್ ಬೆಲೆ | ಕ್ಯಾಶ್ ಮಾಡಿದ ಇನ್ಪುಟ್ ಬೆಲೆ | ಔಟ್ಪುಟ್ ಬೆಲೆ |
gpt-5.2 | $1.75 / M ಟೋಕನ್ಗಳು | $0.175 / M ಟೋಕನ್ಗಳು | $14 / M ಟೋಕನ್ಗಳು |
gpt-5.4 | $2.50 / M ಟೋಕನ್ಗಳು | $0.25 / M ಟೋಕನ್ಗಳು | $15 / M ಟೋಕನ್ಗಳು |
gpt-5.2-pro | $21 / M ಟೋಕನ್ಗಳು | - | $168 / M ಟೋಕನ್ಗಳು |
gpt-5.4-pro | $30 / M ಟೋಕನ್ಗಳು | - | $180 / M ಟೋಕನ್ಗಳು |
ಪ್ರೊಫೆಷನಲ್
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
ಇನ್ವೆಸ್ಟ್ಮೆಂಟ್ ಬ್ಯಾಂಕಿಂಗ್ ಮಾಡೆಲಿಂಗ್ ಕಾರ್ಯಗಳು (ಆಂತರಿಕ) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
ಕೋಡಿಂಗ್
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (ಸಾರ್ವಜನಿಕ) | 57.7% | — | 56.8% | 55.6% | — |
ಟರ್ಮಿನಲ್-ಬೆಂಚ್ 2.0 | 75.1% | — | 77.3% | 62.2% | — |
ಕಂಪ್ಯೂಟರ್ ಬಳಕೆ ಮತ್ತು ದೃಷ್ಟಿ
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-ಪ್ರಮಾಣಿತ | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (ಉಪಕರಣಗಳಿಲ್ಲ) | 81.2% | — | — | 79.5% | — |
MMMU Pro (ಉಪಕರಣಗಳೊಂದಿಗೆ) | 82.1% | — | — | 80.4% | — |
ಟೂಲ್ ಬಳಕೆ
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench ಟೆಲಿಕಾಂ | 98.9% | — | — | 98.7% | — |
ಅಕಾಡೆಮಿಕ್
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Frontier ವಿಜ್ಞಾನ ಸಂಶೋಧನೆ | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath ಮಟ್ಟ 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath ಮಟ್ಟ 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA ಡೈಮಂಡ್ | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
ಮಾನವೀಯತೆಯ ಕೊನೆಯ ಪರೀಕ್ಷೆ (ಯಾವುದೇ ಸಾಧನಗಳಿಲ್ಲ) | 39.8% | 42.7% | — | 34.5% | 36.6% |
ಮಾನವೀಯತೆಯ ಕೊನೆಯ ಪರೀಕ್ಷೆ (ಉಪಕರಣಗಳೊಂದಿಗೆ) | 52.1% | 58.7% | — | 45.5% | 50.0% |
ದೀರ್ಘ ಸಂದರ್ಭ
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks ಪೇರೆಂಟ್ಸ್ 0–128K (ನಿಖರತೆ) | 89.8% | — | — | 89.0% | — |
Graphwalks ಪೇರೆಂಟ್ಸ್ 256K–1M (ನಿಖರತೆ) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
ಅಮೂರ್ತ ತಾರ್ಕಿಕತೆ
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (ಪರಿಶೀಲಿಸಲಾಗಿದೆ) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (ಪರಿಶೀಲಿಸಲಾಗಿದೆ) | 73.3% | 83.3% | — | 52.9% | 54.2% (ಹೆಚ್ಚು) |
ರೀಜನಿಂಗ್ ಇಲ್ಲದ ಮೌಲ್ಯಮಾಪನಗಳು
ಮೌಲ್ಯಮಾಪನ | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (ಸಾಮಾನ್ಯೀಕೃತ ಸಂಪಾದನಾ ದೂರ) | 0.109 | 0.140 | — |
Tau2-bench ಟೆಲಿಕಾಂ | 64.3% | 57.2% | 43.6% |
ಎವಾಲ್ಸ್ ಅನ್ನು xhigh ರೀಜನಿಂಗ್ ಎಫರ್ಟ್ಗೆ ಸೆಟ್ ಮಾಡಿ ರನ್ ಮಾಡಲಾಯಿತು, ಬೇರೆ ರೀತಿಯಲ್ಲಿ ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಸ್ಥಳಗಳನ್ನು ಹೊರತುಪಡಿಸಿ. ಬೆಂಚ್ಮಾರ್ಕ್ಗಳನ್ನು ಸಂಶೋಧನಾ ಪರಿಸರದಲ್ಲಿ ನಡೆಸಲಾಯಿತು, ಇದು ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ ಉತ್ಪಾದನಾ ChatGPT ನಿಂದ ಸ್ವಲ್ಪ ವಿಭಿನ್ನ ಔಟ್ಪುಟ್ ಅನ್ನು ಒದಗಿಸಬಹುದು.
ಲೇಖಕ
ಅಡಿಟಿಪ್ಪಣಿಗಳು
1 ನೈಜ ಮಾನವ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ ವರದಿ ಮಾಡಲಾಗಿದೆ.


