ಮಾರ್ಚ್ 14, 2023

GPT‑4

ಪತ್ರಿಕೆ ಓದಿ ಸಿಸ್ಟಮ್ ಕಾರ್ಡ್ ಅನ್ನು ನೋಡಿ ChatGPT Plus ನಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿ

ಹೆಚ್ಚಿನ ಸಂಪನ್ಮೂಲಗಳು

Playground ನಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿ ಡೆಮೊ ಲೈವ್‌ಸ್ಟ್ರೀಮ್ ಅನ್ನು ಮರು ವೀಕ್ಷಿಸಿ OpenAI Evals ಗೆ ಕೊಡುಗೆ ನೀಡಿ

ಲೋಡ್ ಆಗುತ್ತಿದೆ…

ನಾವು GPT‑4 ಅನ್ನು ರಚಿಸಿದ್ದೇವೆ, ಇದು ತೀಕ್ಷ್ಣವಾದ ಕಲಿಕೆಯನ್ನು ಹೆಚ್ಚಿಸುವಲ್ಲಿ OpenAI ನ ಪ್ರಯತ್ನದಲ್ಲಿ ಇತ್ತೀಚಿನ ಮೈಲಿಗಲ್ಲು. GPT‑4 ಒಂದು ದೊಡ್ಡ ಮಲ್ಟಿಮೋಡಲ್ ಮಾಡೆಲ್ ಆಗಿದೆ (ಚಿತ್ರ ಮತ್ತು ಪಠ್ಯ ಇನ್‌ಪುಟ್‌ಗಳನ್ನು ಸ್ವೀಕರಿಸುವುದು, ಪಠ್ಯ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಹೊರಸೂಸುವುದು), ಇದು ಅನೇಕ ನೈಜ-ಪ್ರಪಂಚದ ಸನ್ನಿವೇಶಗಳಲ್ಲಿ ಮನುಷ್ಯರಿಗಿಂತ ಕಡಿಮೆ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದ್ದರೂ, ವಿವಿಧ ವೃತ್ತಿಪರ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ಮಾನದಂಡಗಳಲ್ಲಿ ಮಾನವ-ಮಟ್ಟದ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಇದು ಪರೀಕ್ಷಾರ್ಥಿಗಳಲ್ಲಿ ಅಗ್ರ 10% ರ ಸುತ್ತ ಅಂಕಗಳೊಂದಿಗೆ ಸಿಮ್ಯುಲೇಟೆಡ್ ಬಾರ್ ಪರೀಕ್ಷೆಯಲ್ಲಿ ಉತ್ತೀರ್ಣರಾಗುತ್ತದೆ; ಇದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ, GPT‑3.5 ರ ಸ್ಕೋರ್ ಕೆಳಗಿನ 10% ರ ಆಸುಪಾಸಿನಲ್ಲಿತ್ತು. ನಮ್ಮ ವಿರೋಧಿ ಪರೀಕ್ಷಾ ಕಾರ್ಯಕ್ರಮ ಹಾಗೂ ChatGPT ಯ ಪಾಠಗಳನ್ನು ಬಳಸಿಕೊಂಡು GPT‑4 ಅನ್ನು ಪುನರಾವರ್ತಿತವಾಗಿ ಜೋಡಿಸಲು⁠ ನಾವು 6 ತಿಂಗಳುಗಳನ್ನು ಕಳೆದಿದ್ದೇವೆ, ಇದರ ಪರಿಣಾಮವಾಗಿ ವಾಸ್ತವಿಕತೆ, ಚಾಲನಾ ಸಾಮರ್ಥ್ಯ ಮತ್ತು ಗಾರ್ಡ್‌ರೈಲ್‌ಗಳ ಹೊರಗೆ ಹೋಗಲು ನಿರಾಕರಿಸುವ ಕುರಿತು ನಮ್ಮ ಅತ್ಯುತ್ತಮ ಫಲಿತಾಂಶಗಳು (ಪರಿಪೂರ್ಣತೆಯಿಂದ ದೂರವಿದ್ದರೂ) ಸಿಕ್ಕಿವೆ.

ಕಳೆದ ಎರಡು ವರ್ಷಗಳಲ್ಲಿ, ನಾವು ನಮ್ಮ ಸಂಪೂರ್ಣ ತೀಕ್ಷ್ಣವಾದ ಕಲಿಕೆಯ ಸ್ಟ್ಯಾಕ್ ಅನ್ನು ಪುನರ್ನಿರ್ಮಿಸಿದ್ದೇವೆ ಮತ್ತು Azure ಜೊತೆಗೆ, ನಮ್ಮ ಕೆಲಸದ ಹೊರೆಗಾಗಿ ನೆಲದಿಂದ ಸೂಪರ್‌ಕಂಪ್ಯೂಟರ್ ಅನ್ನು ಸಹ-ವಿನ್ಯಾಸಗೊಳಿಸಿದ್ದೇವೆ. ಒಂದು ವರ್ಷದ ಹಿಂದೆ, ನಾವು GPT‑3.5 ಅನ್ನು ವ್ಯವಸ್ಥೆಯ ಮೊದಲ "ಪರೀಕ್ಷಾ ರನ್" ಆಗಿ ಟ್ರೈನಿಂಗ್ ನೀಡಿದ್ದೇವೆ. ನಾವು ಕೆಲವು ದೋಷಗಳನ್ನು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ ಮತ್ತು ಸರಿಪಡಿಸಿದ್ದೇವೆ ಮತ್ತು ನಮ್ಮ ಸೈದ್ಧಾಂತಿಕ ಅಡಿಪಾಯಗಳನ್ನು ಸುಧಾರಿಸಿದ್ದೇವೆ. ಪರಿಣಾಮವಾಗಿ, ನಮ್ಮ GPT‑4 ಟ್ರೈನಿಂಗ್ ರನ್ (ಕನಿಷ್ಠ ನಮಗೆ!) ಅಭೂತಪೂರ್ವವಾಗಿ ಸ್ಥಿರವಾಗಿದೆ, ಇದು ನಮ್ಮ ಮೊದಲ ದೊಡ್ಡ ಮಾಡೆಲ್‌ನಾಗಿದೆ, ಅದರ ಟ್ರೈನಿಂಗ್ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಾವು ಸಮಯಕ್ಕಿಂತ ಮುಂಚಿತವಾಗಿ ನಿಖರವಾಗಿ ಊಹಿಸಲು ಸಾಧ್ಯವಾಯಿತು. ನಾವು ವಿಶ್ವಾಸಾರ್ಹ ಸ್ಕೇಲಿಂಗ್‌ನತ್ತ ಗಮನಹರಿಸುವುದನ್ನು ಮುಂದುವರಿಸುತ್ತಿದ್ದಂತೆ, ಭವಿಷ್ಯದ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಹೆಚ್ಚು ಮುಂಚಿತವಾಗಿ ಊಹಿಸಲು ಮತ್ತು ತಯಾರಿಸಲು ನಮಗೆ ಸಹಾಯ ಮಾಡಲು ನಮ್ಮ ವಿಧಾನವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿದ್ದೇವೆ—ಸುರಕ್ಷತೆಗೆ ನಾವು ನಿರ್ಣಾಯಕವೆಂದು ಪರಿಗಣಿಸುತ್ತೇವೆ.

ನಾವು ChatGPT ಮತ್ತು API (ಕಾಯುವಿಕೆ ಪಟ್ಟಿಯೊಂದಿಗೆ⁠) ಮೂಲಕ GPT‑4 ನ ಪಠ್ಯ ಇನ್‌ಪುಟ್ ಸಾಮರ್ಥ್ಯವನ್ನು ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿದ್ದೇವೆ. ವ್ಯಾಪಕ ಲಭ್ಯತೆಗಾಗಿ ಚಿತ್ರ ಇನ್‌ಪುಟ್ ಸಾಮರ್ಥ್ಯವನ್ನು ಸಿದ್ಧಪಡಿಸಲು, ನಾವು ಪ್ರಾರಂಭಿಸಲು ಒಂದೇ ಪಾಲುದಾರರೊಂದಿಗೆ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಿಕಟವಾಗಿ ಸಹಕರಿಸುತ್ತಿದ್ದೇವೆ. ಮತ್ತಷ್ಟು ಸುಧಾರಣೆಗಳಿಗೆ ಮಾರ್ಗದರ್ಶನ ನೀಡಲು ನಮ್ಮ ಮಾಡೆಲ್‌ಗಳಲ್ಲಿನ ನ್ಯೂನತೆಗಳನ್ನು ವರದಿ ಮಾಡಲು ಯಾರಿಗಾದರೂ ಅವಕಾಶ ನೀಡಲು ನಾವು AI ಮಾಡೆಲ್ ಕಾರ್ಯಕ್ಷಮತೆಯ ಸ್ವಯಂಚಾಲಿತ ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ನಮ್ಮ ಚೌಕಟ್ಟಾದ OpenAI Evals⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅನ್ನು ಸಹ ಮುಕ್ತ-ಸೋರ್ಸ್ ಮಾಡುತ್ತಿದ್ದೇವೆ.

ಸಾಮರ್ಥ್ಯಗಳು

ಸಾಂದರ್ಭಿಕ ಸಂಭಾಷಣೆಯಲ್ಲಿ, GPT‑3.5 ಮತ್ತು GPT‑4 ನಡುವಿನ ವ್ಯತ್ಯಾಸವು ಸೂಕ್ಷ್ಮವಾಗಿರಬಹುದು. ಕಾರ್ಯದ ಸಂಕೀರ್ಣತೆಯು ಸಾಕಷ್ಟು ಮಿತಿಯನ್ನು ತಲುಪಿದಾಗ ವ್ಯತ್ಯಾಸವು ಹೊರಬರುತ್ತದೆ—GPT‑4 ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹ, ಸೃಜನಶೀಲ ಮತ್ತು GPT‑3.5 ಗಿಂತ ಹೆಚ್ಚು ಸೂಕ್ಷ್ಮ ಸೂಚನೆಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಎರಡು ಮಾಡೆಲ್‌ಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ನಾವು ಮೂಲತಃ ಮನುಷ್ಯರಿಗಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಪರೀಕ್ಷೆಗಳನ್ನು ಅನುಕರಿಸುವುದು ಸೇರಿದಂತೆ ವಿವಿಧ ಮಾನದಂಡಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸಿದ್ದೇವೆ. ನಾವು ಇತ್ತೀಚಿನ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ ಪರೀಕ್ಷೆಗಳನ್ನು (ಒಲಿಂಪಿಯಾಡ್‌ಗಳು ಮತ್ತು AP ಉಚಿತ ಪ್ರತಿಕ್ರಿಯೆ ಪ್ರಶ್ನೆಗಳ ಸಂದರ್ಭದಲ್ಲಿ) ಬಳಸಿಕೊಂಡು ಅಥವಾ ಅಭ್ಯಾಸ ಪರೀಕ್ಷೆಗಳ 2022–2023 ಆವೃತ್ತಿಗಳನ್ನು ಖರೀದಿಸುವ ಮೂಲಕ ಮುಂದುವರೆದಿದ್ದೇವೆ. ಈ ಪರೀಕ್ಷೆಗಳಿಗೆ ನಾವು ಯಾವುದೇ ನಿರ್ದಿಷ್ಟ ಟ್ರೈನಿಂಗ್ ಅನ್ನು ನೀಡಿಲ್ಲ. ಪರೀಕ್ಷೆಗಳಲ್ಲಿನ ಅಲ್ಪ ಪ್ರಮಾಣದ ಸಮಸ್ಯೆಗಳನ್ನು ಮಾಡೆಲ್ ಟ್ರೈನಿಂಗ್‌ನ ಸಮಯದಲ್ಲಿ ನೋಡಿದೆ, ಆದರೆ ಫಲಿತಾಂಶಗಳು ಪ್ರತಿನಿಧಿಯಾಗಿವೆ ಎಂದು ನಾವು ನಂಬುತ್ತೇವೆ—ವಿವರಗಳಿಗಾಗಿ ನಮ್ಮ ತಾಂತ್ರಿಕ ವರದಿಯನ್ನು⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನೋಡಿ.

ಆಂತರಿಕ ಉಲ್ಲೇಖ ¹

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಯಂತ್ರ ಕಲಿಕೆ ಮಾಡೆಲ್‌ಗಳಿಗಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಸಾಂಪ್ರದಾಯಿಕ ಮಾನದಂಡಗಳಲ್ಲಿ ನಾವು GPT‑4 ಅನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿದ್ದೇವೆ. ಬೆಂಚ್‌ಮಾರ್ಕ್-ನಿರ್ದಿಷ್ಟ ಕರಕುಶಲತೆ ಅಥವಾ ಹೆಚ್ಚುವರಿ ಟ್ರೈನಿಂಗ್ ಪ್ರೋಟೋಕಾಲ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಹೆಚ್ಚಿನ ಅತ್ಯಾಧುನಿಕ (SOTA) ಮಾಡೆಲ್‌ಗಳ ಜೊತೆಗೆ GPT‑4 ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ದೊಡ್ಡ ಭಾಷಾ ಮಾಡೆಲ್‌ಗಳನ್ನು ಗಣನೀಯವಾಗಿ ಮೀರಿಸುತ್ತದೆ:

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಅನೇಕ ML ಮಾನದಂಡಗಳನ್ನು ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ. ಇತರ ಭಾಷೆಗಳಲ್ಲಿ ಸಾಮರ್ಥ್ಯದ ಆರಂಭಿಕ ಅರ್ಥವನ್ನು ಪಡೆಯಲು, ನಾವು MMLU ಮಾನದಂಡವನ್ನು—57 ವಿಷಯಗಳನ್ನು ವ್ಯಾಪಿಸಿರುವ 14,000 ಬಹು-ಆಯ್ಕೆ ಸಮಸ್ಯೆಗಳ ಸೂಟ್ ಅನ್ನು—ಅಜೂರ್ ಅನುವಾದವನ್ನು ಬಳಸಿಕೊಂಡು ವಿವಿಧ ಭಾಷೆಗಳಿಗೆ ಅನುವಾದಿಸಿದ್ದೇವೆ (ಅನುಬಂಧ⁠ ನೋಡಿ). ಪರೀಕ್ಷಿಸಲಾದ 26 ಭಾಷೆಗಳಲ್ಲಿ 24 ಭಾಷೆಗಳಲ್ಲಿ, GPT‑4 GPT‑3.5 ಮತ್ತು ಇತರ LLM ಗಳ (ಚಿಂಚಿಲ್ಲಾ, PaLM) ಇಂಗ್ಲಿಷ್ ಭಾಷಾ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೀರಿಸುತ್ತದೆ, ಇದರಲ್ಲಿ ಲಾಟ್ವಿಯನ್, ವೆಲ್ಷ್ ಮತ್ತು ಸ್ವಾಹಿಲಿ ಮುಂತಾದ ಕಡಿಮೆ ಸಂಪನ್ಮೂಲ ಭಾಷೆಗಳು ಸೇರಿವೆ:

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ನಾವು GPT‑4 ಅನ್ನು ಆಂತರಿಕವಾಗಿ ಬಳಸುತ್ತಿದ್ದೇವೆ, ಬೆಂಬಲ, ಮಾರಾಟ, ವಿಷಯ ಮಾಡರೇಶನ್ ಮತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್‌ನಂತಹ ಕಾರ್ಯಗಳ ಮೇಲೆ ಹೆಚ್ಚಿನ ಪರಿಣಾಮ ಬೀರುತ್ತವೆ. ನಮ್ಮ ಜೋಡಣೆ ತಂತ್ರದಲ್ಲಿ⁠ ಎರಡನೇ ಹಂತವನ್ನು ಪ್ರಾರಂಭಿಸಿ, AI ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವಲ್ಲಿ ಮಾನವರಿಗೆ ಸಹಾಯ ಮಾಡಲು ನಾವು ಇದನ್ನು ಬಳಸುತ್ತಿದ್ದೇವೆ.

ದೃಶ್ಯ ಇನ್‌ಪುಟ್‌ಗಳು

GPT‑4 ಪಠ್ಯ ಮತ್ತು ಚಿತ್ರಗಳ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಸ್ವೀಕರಿಸಬಹುದು, ಇದು—ಪಠ್ಯ-ಮಾತ್ರ ಸೆಟ್ಟಿಂಗ್‌ಗೆ ಸಮಾನಾಂತರವಾಗಿ—ಬಳಕೆದಾರರಿಗೆ ಯಾವುದೇ ದೃಷ್ಟಿ ಅಥವಾ ಭಾಷಾ ಕಾರ್ಯವನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ನಿರ್ದಿಷ್ಟವಾಗಿ ಹೇಳುವುದಾದರೆ, ಇದು ಪಠ್ಯ ಮತ್ತು ಚಿತ್ರಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಇನ್‌ಪುಟ್‌ಗಳನ್ನು ನೀಡಿದ ಪಠ್ಯ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು (ನೈಸರ್ಗಿಕ ಭಾಷೆ, ಕೋಡ್, ಇತ್ಯಾದಿ) ರಚಿಸುತ್ತದೆ. ಪಠ್ಯ ಮತ್ತು ಛಾಯಾಚಿತ್ರಗಳನ್ನು ಹೊಂದಿರುವ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು, ರೇಖಾಚಿತ್ರಗಳು ಅಥವಾ ಸ್ಕ್ರೀನ್‌ಶಾಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ವಿವಿಧ ಡೊಮೇನ್‌ಗಳಲ್ಲಿ—GPT‑4 ಪಠ್ಯ-ಮಾತ್ರ ಇನ್‌ಪುಟ್‌ಗಳಂತೆಯೇ—ಇದೇ ರೀತಿಯ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ. ಇದಲ್ಲದೆ, ಕೆಲವು-ಶಾಟ್ ಮತ್ತು ಚೈನ್-ಆಫ್-ಥಾಟ್⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಪ್ರಾಂಪ್ಟಿಂಗ್ ಸೇರಿದಂತೆ ಪಠ್ಯ-ಮಾತ್ರ ಭಾಷಾ ಮಾಡೆಲ್‌ಗಳಿಗಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾದ ಪರೀಕ್ಷಾ-ಸಮಯದ ತಂತ್ರಗಳೊಂದಿಗೆ ಇದನ್ನು ವರ್ಧಿಸಬಹುದು. ಚಿತ್ರ ಇನ್‌ಪುಟ್‌ಗಳು ಇನ್ನೂ ಸಂಶೋಧನಾ ಪ್ರಿವ್ಯೂ ಆಗಿದ್ದು ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿಲ್ಲ.

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ನಾವು ಪ್ರಮಾಣಿತ ಶೈಕ್ಷಣಿಕ ದೃಷ್ಟಿ ಮಾನದಂಡಗಳ ಕಿರಿದಾದ ಸೂಟ್‌ನಲ್ಲಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ಮೂಲಕ GPT‑4 ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಪ್ರಿವ್ಯೂ ಮಾಡುತ್ತೇವೆ. ಆದಾಗ್ಯೂ, ಈ ಸಂಖ್ಯೆಗಳು ಅದರ ಸಾಮರ್ಥ್ಯಗಳ ವ್ಯಾಪ್ತಿಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪ್ರತಿನಿಧಿಸುವುದಿಲ್ಲ ಏಕೆಂದರೆ ಮಾಡೆಲ್ ನಿಭಾಯಿಸಲು ಸಾಧ್ಯವಾಗುವ ಹೊಸ ಮತ್ತು ಉತ್ತೇಜಕ ಕಾರ್ಯಗಳನ್ನು ನಾವು ನಿರಂತರವಾಗಿ ಕಂಡುಕೊಳ್ಳುತ್ತಿದ್ದೇವೆ. ಪರೀಕ್ಷಾ-ಸಮಯದ ತಂತ್ರಗಳ ಪರಿಣಾಮದ ಸಂಪೂರ್ಣ ತನಿಖೆಯ ಜೊತೆಗೆ ಮತ್ತಷ್ಟು ವಿಶ್ಲೇಷಣೆಗಳು ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಸಂಖ್ಯೆಗಳನ್ನು ಶೀಘ್ರದಲ್ಲೇ ಬಿಡುಗಡೆ ಮಾಡಲು ನಾವು ಪ್ಲಾನ್ ಮಾಡಿದ್ದೇವೆ.

ಆಂತರಿಕ ಅಡಿಟಿಪ್ಪಣಿ ^A

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಸ್ಟೀರಬಿಲಿಟಿ

AI ಗಳ ನಡವಳಿಕೆಯನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವ⁠ ಕುರಿತು ನಮ್ಮ ಪೋಸ್ಟ್‌ನಲ್ಲಿ ವಿವರಿಸಿರುವ ಪ್ಲಾನ್‌ನ ಪ್ರತಿಯೊಂದು ಅಂಶದ ಮೇಲೆ ನಾವು ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದೇವೆ, ಇದರಲ್ಲಿ ಸ್ಟೀರಿಬಿಲಿಟಿ ಸೇರಿದೆ. ಸ್ಥಿರ ವಾಕ್ಚಾತುರ್ಯ, ಸ್ವರ ಮತ್ತು ಶೈಲಿಯೊಂದಿಗೆ ಕ್ಲಾಸಿಕ್ ChatGPT ವ್ಯಕ್ತಿತ್ವಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ, ಡೆವಲಪರ್‌ಗಳು (ಮತ್ತು ಶೀಘ್ರದಲ್ಲೇ ChatGPT ಬಳಕೆದಾರರು) ಈಗ "ಸಿಸ್ಟಮ್" ಸಂದೇಶದಲ್ಲಿ ಆ ನಿರ್ದೇಶನಗಳನ್ನು ವಿವರಿಸುವ ಮೂಲಕ ತಮ್ಮ AI ನ ಶೈಲಿ ಮತ್ತು ಕಾರ್ಯವನ್ನು ಸೂಚಿಸಬಹುದು. ಸಿಸ್ಟಮ್ ಸಂದೇಶಗಳು API ಬಳಕೆದಾರರಿಗೆ ತಮ್ಮ ಬಳಕೆದಾರರ ಅನುಭವವನ್ನು ಮಿತಿಯೊಳಗೆ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಗಮನಾರ್ಹವಾಗಿ ಕಸ್ಟಮೈಸ್ ಮಾಡಲು ಅವಕಾಶ ನೀಡುತ್ತವೆ. ನಾವು ಇಲ್ಲಿ ಸುಧಾರಣೆಗಳನ್ನು ಮಾಡುತ್ತಲೇ ಇರುತ್ತೇವೆ (ಮತ್ತು ನಿರ್ದಿಷ್ಟವಾಗಿ ಸಿಸ್ಟಮ್ ಸಂದೇಶಗಳು ಪ್ರಸ್ತುತ ಮಾಡೆಲ್‌ನನ್ನು "ಜೈಲ್ ಬ್ರೇಕ್" ಮಾಡಲು ಸುಲಭವಾದ ಮಾರ್ಗವಾಗಿದೆ ಎಂದು ನಮಗೆ ತಿಳಿದಿದೆ, ಅಂದರೆ, ಮಿತಿಗಳಿಗೆ ಅಂಟಿಕೊಳ್ಳುವುದು ಪರಿಪೂರ್ಣವಲ್ಲ), ಆದರೆ ನೀವು ಅದನ್ನು ಪ್ರಯತ್ನಿಸಲು ಮತ್ತು ನೀವು ಏನು ಯೋಚಿಸುತ್ತಿದ್ದೀರಿ ಎಂಬುದನ್ನು ನಮಗೆ ತಿಳಿಸಲು ನಾವು ಪ್ರೋತ್ಸಾಹಿಸುತ್ತೇವೆ.

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಮಿತಿಗಳು

ಅದರ ಸಾಮರ್ಥ್ಯಗಳ ಹೊರತಾಗಿಯೂ, GPT‑4 ಹಿಂದಿನ GPT ಮಾಡೆಲ್‌ಗಳಂತೆಯೇ ಇದೇ ರೀತಿಯ ಮಿತಿಗಳನ್ನು ಹೊಂದಿದೆ. ಬಹು ಮುಖ್ಯವಾಗಿ, ಇದು ಇನ್ನೂ ಸಂಪೂರ್ಣವಾಗಿ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿಲ್ಲ (ಇದು ಸತ್ಯಗಳನ್ನು "ಭ್ರಮಿಸುತ್ತದೆ" ಮತ್ತು ತಾರ್ಕಿಕ ದೋಷಗಳನ್ನು ಮಾಡುತ್ತದೆ). ಭಾಷಾ ಮಾಡೆಲ್ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಬಳಸುವಾಗ, ವಿಶೇಷವಾಗಿ ಹೆಚ್ಚಿನ-ಹಕ್ಕು ಸಂದರ್ಭಗಳಲ್ಲಿ, ನಿಖರವಾದ ಪ್ರೋಟೋಕಾಲ್ (ಮಾನವ ಪರಿಶೀಲನೆ, ಹೆಚ್ಚುವರಿ ಸಂದರ್ಭದೊಂದಿಗೆ ಗ್ರೌಂಡಿಂಗ್, ಅಥವಾ ಹೆಚ್ಚಿನ-ಹಕ್ಕುಗಳ ಬಳಕೆಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ತಪ್ಪಿಸುವಂತಹವು) ನಿರ್ದಿಷ್ಟ ಬಳಕೆಯ-ಪ್ರಕರಣದ ಅಗತ್ಯಗಳಿಗೆ ಹೊಂದಿಕೆಯಾಗುವಂತೆ ಹೆಚ್ಚಿನ ಕಾಳಜಿಯನ್ನು ತೆಗೆದುಕೊಳ್ಳಬೇಕು.

ಇನ್ನೂ ನಿಜವಾದ ಸಮಸ್ಯೆಯಾಗಿದ್ದರೂ, GPT‑4 ಹಿಂದಿನ ಮಾಡೆಲ್‌ಗಳಿಗೆ ಹೋಲಿಸಿದರೆ ಭ್ರಮೆಗಳನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ (ಅವು ಪ್ರತಿ ಪುನರಾವರ್ತನೆಯೊಂದಿಗೆ ಸ್ವತಃ ಸುಧಾರಿಸುತ್ತಿವೆ). ನಮ್ಮ ಆಂತರಿಕ ಪ್ರತಿಕೂಲ ವಾಸ್ತವಿಕತೆಯ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ GPT‑4 ನಮ್ಮ ಇತ್ತೀಚಿನ GPT‑3.5 ಗಿಂತ 40% ಹೆಚ್ಚಿನ ಅಂಕಗಳನ್ನು ಗಳಿಸುತ್ತದೆ:

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

TruthfulQA ನಂತಹ ಬಾಹ್ಯ ಮಾನದಂಡಗಳಲ್ಲಿ ನಾವು ಪ್ರಗತಿ ಸಾಧಿಸಿದ್ದೇವೆ, ಇದು ಮಾಡೆಲ್ ವಿರೋಧಿಯಾಗಿ ಆಯ್ಕೆ ಮಾಡಿದ ತಪ್ಪಾದ ಹೇಳಿಕೆಗಳ ಗುಂಪಿನಿಂದ ಸತ್ಯವನ್ನು ಬೇರ್ಪಡಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ. ಈ ಪ್ರಶ್ನೆಗಳನ್ನು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯವಾಗಿ ಆಕರ್ಷಕವಾಗಿರುವ ವಾಸ್ತವಿಕವಾಗಿ ತಪ್ಪಾದ ಉತ್ತರಗಳೊಂದಿಗೆ ಜೋಡಿಸಲಾಗಿದೆ.

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

GPT‑4 ಮೂಲ ಮಾಡೆಲ್ GPT‑3.5 ಗಿಂತ ಈ ಕಾರ್ಯದಲ್ಲಿ ಸ್ವಲ್ಪ ಉತ್ತಮವಾಗಿದೆ; ಆದಾಗ್ಯೂ, RLHF⁠ ನಂತರದ ಟ್ರೈನಿಂಗ್‌ನ ನಂತರ (GPT‑3.5⁠ ನೊಂದಿಗೆ ನಾವು ಬಳಸಿದ ಅದೇ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಅನ್ವಯಿಸುವುದು) ದೊಡ್ಡ ಅಂತರವಿದೆ. ಕೆಳಗಿನ ಕೆಲವು ಉದಾಹರಣೆಗಳನ್ನು ಪರಿಶೀಲಿಸುವಾಗ, GPT‑4 ಸಾಮಾನ್ಯ ಮಾತುಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡುವುದನ್ನು ವಿರೋಧಿಸುತ್ತದೆ (ನೀವು ಹಳೆಯ ನಾಯಿಗೆ ಹೊಸ ತಂತ್ರಗಳನ್ನು ಕಲಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ), ಆದಾಗ್ಯೂ ಅದು ಇನ್ನೂ ಸೂಕ್ಷ್ಮ ವಿವರಗಳನ್ನು ಕಳೆದುಕೊಳ್ಳಬಹುದು (ಎಲ್ವಿಸ್ ಪ್ರೀಸ್ಲಿ ಒಬ್ಬ ನಟನ ಮಗನಾಗಿರಲಿಲ್ಲ).

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಈ ಮಾಡೆಲ್ ಅದರ ಔಟ್‌ಪುಟ್‌ಗಳಲ್ಲಿ ವಿವಿಧ ಪಕ್ಷಪಾತಗಳನ್ನು ಹೊಂದಿರಬಹುದು - ಇವುಗಳಲ್ಲಿ ನಾವು ಪ್ರಗತಿ ಸಾಧಿಸಿದ್ದೇವೆ ಆದರೆ ಇನ್ನೂ ಹೆಚ್ಚಿನದನ್ನು ಮಾಡಬೇಕಾಗಿದೆ. ನಮ್ಮ ಇತ್ತೀಚಿನ ಬ್ಲಾಗ್ ಪೋಸ್ಟ್⁠ ಪ್ರಕಾರ, ನಾವು ನಿರ್ಮಿಸುವ AI ವ್ಯವಸ್ಥೆಗಳು ಬಳಕೆದಾರರ ಮೌಲ್ಯಗಳ ವ್ಯಾಪಕ ಶ್ರೇಣಿಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವ ಸಮಂಜಸವಾದ ಪೂರ್ವನಿಯೋಜಿತ ನಡವಳಿಕೆಗಳನ್ನು ಹೊಂದಿರುವಂತೆ ಮಾಡುವುದು, ಆ ವ್ಯವಸ್ಥೆಗಳನ್ನು ವಿಶಾಲ ಮಿತಿಗಳಲ್ಲಿ ಕಸ್ಟಮೈಸ್ ಮಾಡಲು ಅವಕಾಶ ನೀಡುವುದು ಮತ್ತು ಆ ಮಿತಿಗಳು ಏನಾಗಿರಬೇಕು ಎಂಬುದರ ಕುರಿತು ಸಾರ್ವಜನಿಕ ಇನ್‌ಪುಟ್ ಪಡೆಯುವುದು ನಮ್ಮ ಗುರಿಯಾಗಿದೆ.

GPT‑4 ಸಾಮಾನ್ಯವಾಗಿ ಅದರ ಬಹುಪಾಲು ಡೇಟಾ ಕಡಿತಗೊಂಡ ನಂತರ (ಸೆಪ್ಟೆಂಬರ್ 2021) ಸಂಭವಿಸಿದ ಘಟನೆಗಳ ಬಗ್ಗೆ ಜ್ಞಾನವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ ಮತ್ತು ಅದರ ಅನುಭವದಿಂದ ಕಲಿಯುವುದಿಲ್ಲ. ಇದು ಕೆಲವೊಮ್ಮೆ ಸರಳ ತಾರ್ಕಿಕ ದೋಷಗಳನ್ನು ಮಾಡಬಹುದು, ಅದು ಹಲವು ಡೊಮೇನ್‌ಗಳಲ್ಲಿ ಸಾಮರ್ಥ್ಯದೊಂದಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವುದಿಲ್ಲ ಅಥವಾ ಬಳಕೆದಾರರಿಂದ ಸ್ಪಷ್ಟವಾದ ಸುಳ್ಳು ಹೇಳಿಕೆಗಳನ್ನು ಸ್ವೀಕರಿಸುವಲ್ಲಿ ಅತಿಯಾಗಿ ಮೋಸಹೋಗುತ್ತದೆ. ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಅದು ಮಾನವರು ಮಾಡುವಂತೆಯೇ ಕಠಿಣ ಸಮಸ್ಯೆಗಳಲ್ಲಿ ವಿಫಲವಾಗಬಹುದು, ಉದಾಹರಣೆಗೆ ಅದು ಉತ್ಪಾದಿಸುವ ಕೋಡ್‌ನಲ್ಲಿ ಭದ್ರತಾ ದೋಷಗಳನ್ನು ಪರಿಚಯಿಸುವುದು.

GPT‑4 ತನ್ನ ಭವಿಷ್ಯವಾಣಿಗಳಲ್ಲಿ ವಿಶ್ವಾಸದಿಂದ ತಪ್ಪಾಗಿರಬಹುದು, ಅದು ತಪ್ಪು ಮಾಡುವ ಸಾಧ್ಯತೆಯಿದ್ದಾಗ ಕೆಲಸವನ್ನು ಎರಡು ಬಾರಿ ಪರಿಶೀಲಿಸಲು ಕಾಳಜಿ ವಹಿಸುವುದಿಲ್ಲ. ಕುತೂಹಲಕಾರಿಯಾಗಿ, ಮೂಲ ಪೂರ್ವ-ಟ್ರೈನಿಂಗ್ ಪಡೆದ ಮಾಡೆಲ್ ಹೆಚ್ಚು ಮಾಪನಾಂಕ ನಿರ್ಣಯಿಸಲ್ಪಟ್ಟಿದೆ (ಉತ್ತರದಲ್ಲಿ ಅದರ ಊಹಿಸಲಾದ ವಿಶ್ವಾಸವು ಸಾಮಾನ್ಯವಾಗಿ ಸರಿಯಾಗಿರುವುದರ ಸಂಭವನೀಯತೆಗೆ ಹೊಂದಿಕೆಯಾಗುತ್ತದೆ). ಆದಾಗ್ಯೂ, ನಮ್ಮ ಪ್ರಸ್ತುತ ಟ್ರೈನಿಂಗ್ ನಂತರದ ಪ್ರಕ್ರಿಯೆಯ ಮೂಲಕ, ಮಾಪನಾಂಕ ನಿರ್ಣಯವು ಕಡಿಮೆಯಾಗುತ್ತದೆ.

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಅಪಾಯಗಳು ಮತ್ತು ತಗ್ಗಿಸುವಿಕೆಗಳು

ಪೂರ್ವ ಟ್ರೈನಿಂಗ್ ಡೇಟಾದ ಆಯ್ಕೆ ಮತ್ತು ಫಿಲ್ಟರ್ ಮಾಡುವಿಕೆ, ಮೌಲ್ಯಮಾಪನಗಳು ಮತ್ತು ತಜ್ಞರ ತೊಡಗಿಸಿಕೊಳ್ಳುವಿಕೆ, ಮಾಡೆಲ್ ಸುರಕ್ಷತಾ ಸುಧಾರಣೆಗಳು ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆ ಮತ್ತು ಜಾರಿಗೊಳಿಸುವಿಕೆ ಸೇರಿದಂತೆ ಪ್ರಯತ್ನಗಳೊಂದಿಗೆ, ಟ್ರೈನಿಂಗ್‌ನ ಆರಂಭದಿಂದಲೂ GPT‑4 ಅನ್ನು ಸುರಕ್ಷಿತ ಮತ್ತು ಹೆಚ್ಚು ಹೊಂದಾಣಿಕೆ ಮಾಡಲು ನಾವು ಪುನರಾವರ್ತಿತವಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದೇವೆ.

ಹಾನಿಕಾರಕ ಸಲಹೆ, ದೋಷಯುಕ್ತ ಕೋಡ್ ಅಥವಾ ತಪ್ಪಾದ ಮಾಹಿತಿಯನ್ನು ರಚಿಸುವಂತಹ ಹಿಂದಿನ ಮಾಡೆಲ್‌ಗಳಂತೆಯೇ GPT‑4 ಇದೇ ರೀತಿಯ ಅಪಾಯಗಳನ್ನು ಒಡ್ಡುತ್ತದೆ. ಆದರೆ, GPT‑4 ರ ಹೆಚ್ಚುವರಿ ಸಾಮರ್ಥ್ಯಗಳು ಹೊಸ ಅಪಾಯದ ಅಂಶಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತವೆ. ಆದಾಗ್ಯೂ, GPT‑4 ನ ಹೆಚ್ಚುವರಿ ಸಾಮರ್ಥ್ಯಗಳು ಹೊಸ ಅಪಾಯದ ಮೇಲ್ಮೈಗಳಿಗೆ ಕಾರಣವಾಗುತ್ತವೆ.ಈ ಅಪಾಯಗಳ ವ್ಯಾಪ್ತಿಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ಮಾಡೆಲ್‌ನನ್ನು ಪ್ರತಿಕೂಲವಾಗಿ ಪರೀಕ್ಷಿಸಲು ನಾವು AI ಜೋಡಣೆ ಅಪಾಯಗಳು, ಸೈಬರ್ ಭದ್ರತೆ, ಜೈವಿಕ ಅಪಾಯ, ನಂಬಿಕೆ ಮತ್ತು ಸುರಕ್ಷತೆ ಮತ್ತು ಅಂತರರಾಷ್ಟ್ರೀಯ ಭದ್ರತೆಯಂತಹ ಡೊಮೇನ್‌ಗಳಿಂದ 50 ಕ್ಕೂ ಹೆಚ್ಚು ತಜ್ಞರನ್ನು ತೊಡಗಿಸಿಕೊಂಡಿದ್ದೇವೆ. ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಪರಿಣತಿಯ ಅಗತ್ಯವಿರುವ ಹೆಚ್ಚಿನ ಅಪಾಯದ ಪ್ರದೇಶಗಳಲ್ಲಿ ಮಾಡೆಲ್ ನಡವಳಿಕೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು ಅವರ ಸಂಶೋಧನೆಗಳು ನಿರ್ದಿಷ್ಟವಾಗಿ ನಮಗೆ ಅನುವು ಮಾಡಿಕೊಟ್ಟವು. ಈ ತಜ್ಞರಿಂದ ಪ್ರತಿಕ್ರಿಯೆ ಮತ್ತು ಡೇಟಾವನ್ನು ಮಾಡೆಲ್‌ಗಾಗಿ ನಮ್ಮ ತಗ್ಗಿಸುವಿಕೆ ಮತ್ತು ಸುಧಾರಣೆಗಳಿಗೆ ಸೇರಿಸಲಾಗಿದೆ; ಉದಾಹರಣೆಗೆ, ಅಪಾಯಕಾರಿ ರಾಸಾಯನಿಕಗಳನ್ನು ಹೇಗೆ ಸಂಶ್ಲೇಷಿಸುವುದು ಎಂಬುದರ ಕುರಿತು ವಿನಂತಿಗಳನ್ನು ನಿರಾಕರಿಸುವ GPT‑4 ಸಾಮರ್ಥ್ಯವನ್ನು ಸುಧಾರಿಸಲು ನಾವು ಹೆಚ್ಚುವರಿ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಿದ್ದೇವೆ.

RLHF ಟ್ರೈನಿಂಗ್‌ನ ಸಮಯದಲ್ಲಿ ಹಾನಿಕಾರಕ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು GPT‑4 ಹೆಚ್ಚುವರಿ ಸುರಕ್ಷತಾ ಪ್ರತಿಫಲ ಸಂಕೇತವನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ (ನಮ್ಮ ಬಳಕೆಯ ಮಾರ್ಗಸೂಚಿಗಳಿಂದ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ವ್ಯಾಖ್ಯಾನಿಸಲಾಗಿದೆ) ಅಂತಹ ವಿಷಯಕ್ಕಾಗಿ ವಿನಂತಿಗಳನ್ನು ನಿರಾಕರಿಸಲು ಮಾಡೆಲ್‌ಗೆ ಟ್ರೈನಿಂಗ್ ನೀಡುತ್ತದೆ. ಸುರಕ್ಷತೆ-ಸಂಬಂಧಿತ ಪ್ರಾಂಪ್ಟ್‌ಗಳಲ್ಲಿ ಸುರಕ್ಷತಾ ಗಡಿಗಳು ಮತ್ತು ಪೂರ್ಣಗೊಳಿಸುವಿಕೆ ಶೈಲಿಯನ್ನು ನಿರ್ಣಯಿಸುವ GPT‑4 ಶೂನ್ಯ-ಶಾಟ್ ವರ್ಗೀಕರಣದಿಂದ ಬಹುಮಾನವನ್ನು ಒದಗಿಸಲಾಗುತ್ತದೆ. ಮಾಡೆಲ್ ಮಾನ್ಯ ವಿನಂತಿಗಳನ್ನು ನಿರಾಕರಿಸುವುದನ್ನು ತಡೆಯಲು, ನಾವು ವಿವಿಧ ಮೂಲಗಳಿಂದ ವೈವಿಧ್ಯಮಯ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಂಗ್ರಹಿಸುತ್ತೇವೆ (ಉದಾ., ಲೇಬಲ್ ಮಾಡಲಾದ ಉತ್ಪಾದನಾ ಡೇಟಾ, ಮಾನವ ರೆಡ್-ಟೀಮಿಂಗ್, ಮಾದರಿ-ರಚಿಸಿದ ಪ್ರಾಂಪ್ಟ್‌ಗಳು) ಮತ್ತು ಅನುಮತಿಸಲಾದ ಮತ್ತು ಅನುಮತಿಸದ ವರ್ಗಗಳೆರಡರಲ್ಲೂ ಸುರಕ್ಷತಾ ಪ್ರತಿಫಲ ಸಂಕೇತವನ್ನು (ಧನಾತ್ಮಕ ಅಥವಾ ಋಣಾತ್ಮಕ ಮೌಲ್ಯದೊಂದಿಗೆ) ಅನ್ವಯಿಸುತ್ತೇವೆ.

GPT‑3.5 ಗೆ ಹೋಲಿಸಿದರೆ ನಮ್ಮ ತಗ್ಗಿಸುವಿಕೆಗಳು GPT‑4 ನ ಹಲವು ಸುರಕ್ಷತಾ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸಿವೆ. GPT‑3.5 ಗೆ ಹೋಲಿಸಿದರೆ ಅನುಮತಿಸದ ವಿಷಯಕ್ಕಾಗಿ ವಿನಂತಿಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸುವ ಮಾಡೆಲ್‌ನ ಪ್ರವೃತ್ತಿಯನ್ನು ನಾವು 82% ರಷ್ಟು ಕಡಿಮೆ ಮಾಡಿದ್ದೇವೆ ಮತ್ತು GPT‑4 ನಮ್ಮ ನೀತಿಗಳಿಗೆ ಅನುಗುಣವಾಗಿ ಸೂಕ್ಷ್ಮ ವಿನಂತಿಗಳಿಗೆ (ಉದಾ., ವೈದ್ಯಕೀಯ ಸಲಹೆ ಮತ್ತು ಸ್ವಯಂ-ಹಾನಿ) 29% ಹೆಚ್ಚಾಗಿ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತದೆ.

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಒಟ್ಟಾರೆಯಾಗಿ, ನಮ್ಮ ಮಾದರಿ-ಮಟ್ಟದ ಮಧ್ಯಸ್ಥಿಕೆಗಳು ಕೆಟ್ಟ ನಡವಳಿಕೆಯನ್ನು ಹೊರಹೊಮ್ಮಿಸುವ ಕಷ್ಟವನ್ನು ಹೆಚ್ಚಿಸುತ್ತವೆ ಆದರೆ ಹಾಗೆ ಮಾಡುವುದು ಇನ್ನೂ ಸಾಧ್ಯ. ಹೆಚ್ಚುವರಿಯಾಗಿ, ನಮ್ಮ ಬಳಕೆಯ ಮಾರ್ಗಸೂಚಿಗಳನ್ನು⁠ ಉಲ್ಲಂಘಿಸುವ ವಿಷಯವನ್ನು ರಚಿಸಲು "ಜೈಲ್‌ಬ್ರೇಕ್‌ಗಳು" ಇನ್ನೂ ಅಸ್ತಿತ್ವದಲ್ಲಿವೆ. AI ವ್ಯವಸ್ಥೆಗಳ "ಪ್ರತಿ token ಗೆ ಅಪಾಯ" ಹೆಚ್ಚಾದಂತೆ, ಈ ಮಧ್ಯಸ್ಥಿಕೆಗಳಲ್ಲಿ ಅತ್ಯಂತ ಹೆಚ್ಚಿನ ಮಟ್ಟದ ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಸಾಧಿಸುವುದು ನಿರ್ಣಾಯಕವಾಗುತ್ತದೆ; ಇದೀಗ ಈ ಮಿತಿಗಳನ್ನು ದುರುಪಯೋಗಕ್ಕಾಗಿ ಮೇಲ್ವಿಚಾರಣೆಯಂತಹ ನಿಯೋಜನೆ-ಸಮಯದ ಸುರಕ್ಷತಾ ತಂತ್ರಗಳೊಂದಿಗೆ ಪೂರೈಸುವುದು ಮುಖ್ಯವಾಗಿದೆ.

GPT‑4 ಮತ್ತು ಉತ್ತರಾಧಿಕಾರಿ ಮಾಡೆಲ್‌ಗಳು ಪ್ರಯೋಜನಕಾರಿ ಮತ್ತು ಹಾನಿಕಾರಕ ಎರಡೂ ರೀತಿಯಲ್ಲಿ ಸಮಾಜದ ಮೇಲೆ ಗಮನಾರ್ಹವಾಗಿ ಪ್ರಭಾವ ಬೀರುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿವೆ. ನಾವು ಸಂಭಾವ್ಯ ಪರಿಣಾಮಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಮತ್ತು ನಿರ್ಣಯಿಸುವ ವಿಧಾನವನ್ನು ಸುಧಾರಿಸಲು ಹಾಗೂ ಭವಿಷ್ಯದ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಹೊರಹೊಮ್ಮಬಹುದಾದ ಅಪಾಯಕಾರಿ ಸಾಮರ್ಥ್ಯಗಳಿಗೆ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ನಿರ್ಮಿಸಲು ಬಾಹ್ಯ ಸಂಶೋಧಕರೊಂದಿಗೆ ಸಹಯೋಗ ಮಾಡುತ್ತಿದ್ದೇವೆ. GPT‑4 ಮತ್ತು ಇತರ AI ವ್ಯವಸ್ಥೆಗಳ ಸಂಭಾವ್ಯ ಸಾಮಾಜಿಕ ಮತ್ತು ಆರ್ಥಿಕ ಪರಿಣಾಮಗಳ ಕುರಿತು ನಮ್ಮ ಹೆಚ್ಚಿನ ಚಿಂತನೆಯನ್ನು ನಾವು ಶೀಘ್ರದಲ್ಲೇ ಹಂಚಿಕೊಳ್ಳುತ್ತೇವೆ.

ಟ್ರೈನಿಂಗ್ ಪ್ರಕ್ರಿಯೆ

ಹಿಂದಿನ GPT ಮಾಡೆಲ್‌ಗಳಂತೆ, GPT‑4 ಮೂಲ ಮಾಡೆಲ್‌ನನ್ನು ಡಾಕ್ಯುಮೆಂಟ್‌ನಲ್ಲಿ ಮುಂದಿನ ಪದವನ್ನು ಊಹಿಸಲು ಟ್ರೈನಿಂಗ್ ನೀಡಲಾಗಿದೆ ಮತ್ತು ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ ಡೇಟಾ (ಇಂಟರ್ನೆಟ್ ಡೇಟಾದಂತಹ) ಹಾಗೂ ನಾವು ಪರವಾನಗಿ ಪಡೆದ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು ಟ್ರೈನಿಂಗ್ ನೀಡಲಾಗಿದೆ. ಡೇಟಾವು ಗಣಿತ ಸಮಸ್ಯೆಗಳಿಗೆ ಸರಿಯಾದ ಮತ್ತು ತಪ್ಪಾದ ಪರಿಹಾರಗಳು, ದುರ್ಬಲ ಮತ್ತು ಬಲವಾದ ತಾರ್ಕಿಕತೆ, ಸ್ವಯಂ-ವಿರೋಧಾತ್ಮಕ ಮತ್ತು ಸ್ಥಿರವಾದ ಹೇಳಿಕೆಗಳು ಮತ್ತು ವೈವಿಧ್ಯಮಯ ಸಿದ್ಧಾಂತಗಳು ಮತ್ತು ಆಲೋಚನೆಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುವ ಡೇಟಾದ ವೆಬ್-ಸ್ಕೇಲ್ ಕಾರ್ಪಸ್ ಆಗಿದೆ.

ಆದ್ದರಿಂದ ಪ್ರಶ್ನೆಯೊಂದಿಗೆ ಪ್ರಾಂಪ್ಟ್ ಮಾಡಿದಾಗ, ಮೂಲ ಮಾಡೆಲ್ ಬಳಕೆದಾರರ ಉದ್ದೇಶದಿಂದ ದೂರವಿರಬಹುದಾದ ವಿವಿಧ ರೀತಿಯಲ್ಲಿ ಪ್ರತಿಕ್ರಿಯಿಸಬಹುದು. ಗಾರ್ಡ್‌ರೈಲ್‌ಗಳೊಳಗೆ ಬಳಕೆದಾರರ ಉದ್ದೇಶದೊಂದಿಗೆ ಅದನ್ನು ಜೋಡಿಸಲು, ಮಾನವ ಪ್ರತಿಕ್ರಿಯೆಯೊಂದಿಗೆ ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಮಾಡೆಲ್‌ನ ನಡವಳಿಕೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸುತ್ತೇವೆ (RLHF⁠).

ಮಾಡೆಲ್‌ನ ಸಾಮರ್ಥ್ಯಗಳು ಪ್ರಾಥಮಿಕವಾಗಿ ಪೂರ್ವ-ಟ್ರೈನಿಂಗ್ ಪ್ರಕ್ರಿಯೆಯಿಂದ ಬಂದಂತೆ ತೋರುತ್ತದೆ ಎಂಬುದನ್ನು ಗಮನಿಸಿ—RLHF ಪರೀಕ್ಷೆಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸುವುದಿಲ್ಲ (ಸಕ್ರಿಯ ಪ್ರಯತ್ನವಿಲ್ಲದೆ, ಅದು ವಾಸ್ತವವಾಗಿ ಅದನ್ನು ಕೆಳಮಟ್ಟಕ್ಕೆ ಇಳಿಸುತ್ತದೆ). ಆದರೆ ಮಾಡೆಲ್‌ನ ಮಾರ್ಗದರ್ಶನವು ಟ್ರೈನಿಂಗ್‌ನ ನಂತರದ ಪ್ರಕ್ರಿಯೆಯಿಂದ ಬರುತ್ತದೆ—ಮೂಲ ಮಾಡೆಲ್ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸಬೇಕೆಂದು ತಿಳಿದುಕೊಳ್ಳಲು ಪ್ರಾಂಪ್ಟ್ ಎಂಜಿನಿಯರಿಂಗ್ ಅಗತ್ಯವಿದೆ.

ಊಹಿಸಬಹುದಾದ ಸ್ಕೇಲಿಂಗ್

GPT‑4 ಪ್ರಾಜೆಕ್ಟ್‌ನ ದೊಡ್ಡ ಗಮನವು ಊಹಿಸಬಹುದಾದಂತೆ ಅಳೆಯುವ ತೀಕ್ಷ್ಣವಾದ ಕಲಿಕೆಯ ಸ್ಟ್ಯಾಕ್ ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದೆ. ಪ್ರಾಥಮಿಕ ತಾರ್ಕಿಕತೆ ಎಂದರೆ, GPT‑4 ನಂತಹ ದೊಡ್ಡ ಟ್ರೈನಿಂಗ್ ರನ್‌ಗಳಿಗೆ, ವ್ಯಾಪಕವಾದ ಮಾದರಿ-ನಿರ್ದಿಷ್ಟ ಶ್ರುತಿ ಮಾಡುವುದು ಕಾರ್ಯಸಾಧ್ಯವಲ್ಲ. ನಾವು ಬಹು ಮಾಪಕಗಳಲ್ಲಿ ಬಹಳ ಊಹಿಸಬಹುದಾದ ನಡವಳಿಕೆಯನ್ನು ಹೊಂದಿರುವ ಮೂಲಸೌಕರ್ಯ ಮತ್ತು ಆಪ್ಟಿಮೈಸೇಶನ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದೇವೆ. ಈ ಸ್ಕೇಲೆಬಿಲಿಟಿಯನ್ನು ಪರಿಶೀಲಿಸಲು, ಅದೇ ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು ಆದರೆ 10,000x ಕಡಿಮೆ ಕಂಪ್ಯೂಟ್ ಬಳಸಿ ಟ್ರೈನಿಂಗ್ ಪಡೆದ ಮಾಡೆಲ್‌ಗಳಿಂದ ಎಕ್ಸ್‌ಟ್ರಾಪೋಲೇಟ್ ಮಾಡುವ ಮೂಲಕ ನಮ್ಮ ಆಂತರಿಕ ಕೋಡ್‌ಬೇಸ್‌ನಲ್ಲಿ (ಟ್ರೈನಿಂಗ್ ಸೆಟ್‌ನ ಭಾಗವಲ್ಲ) GPT‑4 ನ ಅಂತಿಮ ನಷ್ಟವನ್ನು ನಾವು ಮುಂಚಿತವಾಗಿ ನಿಖರವಾಗಿ ಊಹಿಸಿದ್ದೇವೆ:

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಈಗ ನಾವು ಟ್ರೈನಿಂಗ್‌ನ ಸಮಯದಲ್ಲಿ (ನಷ್ಟ) ಅತ್ಯುತ್ತಮವಾಗಿಸುವ ಮೆಟ್ರಿಕ್ ಅನ್ನು ನಿಖರವಾಗಿ ಊಹಿಸಬಹುದು, ಹೆಚ್ಚು ಅರ್ಥೈಸಬಹುದಾದ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಊಹಿಸಲು ನಾವು ವಿಧಾನವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಪ್ರಾರಂಭಿಸುತ್ತಿದ್ದೇವೆ. ಉದಾಹರಣೆಗೆ, 1,000x ಕಡಿಮೆ ಕಂಪ್ಯೂಟ್ ಹೊಂದಿರುವ ಮಾಡೆಲ್‌ಗಳಿಂದ ಹೊರತೆಗೆಯುವ ಮೂಲಕ, HumanEval⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಡೇಟಾಸೆಟ್‌ನ ಉಪವಿಭಾಗದಲ್ಲಿ ನಾವು ಉತ್ತೀರ್ಣ ದರವನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಊಹಿಸಿದ್ದೇವೆ:

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಕೆಲವು ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಊಹಿಸಲು ಇನ್ನೂ ಕಷ್ಟ. ಉದಾಹರಣೆಗೆ, ಮಾಡೆಲ್ ಕಂಪ್ಯೂಟ್ ಹೆಚ್ಚಾದಂತೆ ಕೆಟ್ಟದಾಗುವ ಮೆಟ್ರಿಕ್ ಅನ್ನು ಕಂಡುಹಿಡಿಯುವ ಸ್ಪರ್ಧೆಯು ಇನ್ವರ್ಸ್ ಸ್ಕೇಲಿಂಗ್ ಪ್ರಶಸ್ತಿಯಾಗಿತ್ತು ಮತ್ತು ಹಿನ್ನೋಟದ ನಿರ್ಲಕ್ಷ್ಯವು⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ವಿಜೇತರಲ್ಲಿ ಒಂದಾಗಿದೆ. ಇತ್ತೀಚಿನ ಮತ್ತೊಂದು ಫಲಿತಾಂಶದಂತೆಯೇ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), GPT‑4 ಈ ಪ್ರವೃತ್ತಿಯನ್ನು ಹಿಮ್ಮುಖಗೊಳಿಸುತ್ತದೆ:

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಭವಿಷ್ಯದ ಯಂತ್ರ ಕಲಿಕೆಯ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ನಿಖರವಾಗಿ ಊಹಿಸುವುದು ಸುರಕ್ಷತೆಯ ಪ್ರಮುಖ ಭಾಗವಾಗಿದೆ ಎಂದು ನಾವು ನಂಬುತ್ತೇವೆ, ಅದು ಅದರ ಸಂಭಾವ್ಯ ಪರಿಣಾಮಕ್ಕೆ ಸಂಬಂಧಿಸಿದಂತೆ ಸಾಕಷ್ಟು ಗಮನವನ್ನು ಪಡೆಯುವುದಿಲ್ಲ (ಹಲವಾರು ಸಂಸ್ಥೆಗಳಾದ್ಯಂತ ಪ್ರಯತ್ನಗಳಿಂದ ನಮಗೆ ಪ್ರೋತ್ಸಾಹ ಸಿಕ್ಕಿದ್ದರೂ). ಭವಿಷ್ಯದ ವ್ಯವಸ್ಥೆಗಳಿಂದ ಸಮಾಜಕ್ಕೆ ಏನನ್ನು ನಿರೀಕ್ಷಿಸಬಹುದು ಎಂಬುದರ ಕುರಿತು ಉತ್ತಮ ಮಾರ್ಗದರ್ಶನವನ್ನು ಒದಗಿಸುವ ವಿಧಾನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ನಾವು ನಮ್ಮ ಪ್ರಯತ್ನಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತಿದ್ದೇವೆ ಮತ್ತು ಇದು ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಾಮಾನ್ಯ ಗುರಿಯಾಗುತ್ತದೆ ಎಂದು ನಾವು ಭಾವಿಸುತ್ತೇವೆ.

OpenAI Evals

ನಾವು OpenAI Evals⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅನ್ನು ಓಪನ್-ಸೋರ್ಸ್ ಮಾಡುತ್ತಿದ್ದೇವೆ, ಇದು GPT‑4 ನಂತಹ ಮಾಡೆಲ್‌ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಮಾನದಂಡಗಳನ್ನು ರಚಿಸಲು ಮತ್ತು ಚಲಾಯಿಸಲು ನಮ್ಮ ಸಾಫ್ಟ್‌ವೇರ್ ಫ್ರೇಮ್‌ವರ್ಕ್ ಆಗಿದ್ದು, ಅವುಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮಾದರಿಯನ್ನು ಮಾದರಿಯಿಂದ ಪರಿಶೀಲಿಸುತ್ತದೆ. ನಮ್ಮ ಮಾಡೆಲ್‌ಗಳ ಅಭಿವೃದ್ಧಿಗೆ ಮಾರ್ಗದರ್ಶನ ನೀಡಲು ನಾವು Evals ಅನ್ನು ಬಳಸುತ್ತೇವೆ (ದೋಷಗಳನ್ನು ಗುರುತಿಸುವುದು ಮತ್ತು ಹಿಂಜರಿತಗಳನ್ನು ತಡೆಗಟ್ಟುವುದು ಎರಡೂ), ಮತ್ತು ನಮ್ಮ ಬಳಕೆದಾರರು ಮಾಡೆಲ್ ಆವೃತ್ತಿಗಳಲ್ಲಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಲು (ಇದು ಈಗ ನಿಯಮಿತವಾಗಿ ಹೊರಬರಲಿದೆ) ಮತ್ತು ಉತ್ಪನ್ನ ಏಕೀಕರಣವನ್ನು ವಿಕಸಿಸಲು ಇದನ್ನು ಅನ್ವಯಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಸ್ಟ್ರೈಪ್ ತಮ್ಮ GPT‑ಚಾಲಿತ ದಸ್ತಾವೇಜೀಕರಣ ಉಪಕರಣದ ನಿಖರತೆಯನ್ನು ಅಳೆಯಲು ತಮ್ಮ ಮಾನವ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಪೂರೈಸಲು Evals ಅನ್ನು ಬಳಸಿದೆ.

ಕೋಡ್ ಎಲ್ಲಾ ಮುಕ್ತ-ಮೂಲವಾಗಿರುವುದರಿಂದ, ಕಸ್ಟಮ್ ಮೌಲ್ಯಮಾಪನ ತರ್ಕವನ್ನು⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಕಾರ್ಯಗತಗೊಳಿಸಲು Evals ಹೊಸ ವರ್ಗಗಳನ್ನು ಬರೆಯುವುದನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಆದಾಗ್ಯೂ, ನಮ್ಮ ಸ್ವಂತ ಅನುಭವದಲ್ಲಿ, ಅನೇಕ ಮಾನದಂಡಗಳು ಕೆಲವು "ಟೆಂಪ್ಲೇಟ್‌ಗಳಲ್ಲಿ" ಒಂದನ್ನು ಅನುಸರಿಸುತ್ತವೆ, ಆದ್ದರಿಂದ ನಾವು ಆಂತರಿಕವಾಗಿ ಹೆಚ್ಚು ಉಪಯುಕ್ತವಾಗಿರುವ ಟೆಂಪ್ಲೇಟ್‌ಗಳನ್ನು ಸಹ ಸೇರಿಸಿದ್ದೇವೆ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ("ಮಾಡೆಲ್-ಶ್ರೇಣೀಕೃತ ಇವಾಲ್‌ಗಳು" ಗಾಗಿ ಟೆಂಪ್ಲೇಟ್ ಸೇರಿದಂತೆ—GPT‑4 ಆಶ್ಚರ್ಯಕರವಾಗಿ ತನ್ನದೇ ಆದ ಕೆಲಸವನ್ನು ಪರಿಶೀಲಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ ಎಂದು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ). ಸಾಮಾನ್ಯವಾಗಿ ಹೊಸ ಇವಾಲ್ ಅನ್ನು ನಿರ್ಮಿಸಲು⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ ಮಾರ್ಗವೆಂದರೆ ಡೇಟಾವನ್ನು ಒದಗಿಸುವುದರ ಜೊತೆಗೆ ಈ ಟೆಂಪ್ಲೇಟ್‌ಗಳಲ್ಲಿ ಒಂದನ್ನು ಇನ್‌ಸ್ಟಾಂಟಿಯೇಟ್ ಮಾಡುವುದು. ಈ ಟೆಂಪ್ಲೇಟ್‌ಗಳೊಂದಿಗೆ ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಇವಾಲ್‌ಗಳೊಂದಿಗೆ ಇತರರು ಏನು ನಿರ್ಮಿಸಬಹುದು ಎಂಬುದನ್ನು ನೋಡಲು ನಾವು ಉತ್ಸುಕರಾಗಿದ್ದೇವೆ.

ಇವಾಲ್‌ಗಳು ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಲು ಮತ್ತು ಕ್ರೌಡ್‌ಸೋರ್ಸ್ ಮಾಡಲು ಒಂದು ವಾಹನವಾಗುತ್ತದೆ ಎಂದು ನಾವು ಭಾವಿಸುತ್ತೇವೆ, ಇದು ಗರಿಷ್ಠವಾಗಿ ವ್ಯಾಪಕವಾದ ವೈಫಲ್ಯ ವಿಧಾನಗಳು ಮತ್ತು ಕಷ್ಟಕರವಾದ ಕಾರ್ಯಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ. ಅನುಸರಿಸಲು ಉದಾಹರಣೆಯಾಗಿ, GPT‑4 ವಿಫಲವಾದ ಹತ್ತು ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಲಾಜಿಕ್ ಪಜಲ್ಸ್⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಇವಾಲ್ ಅನ್ನು ನಾವು ರಚಿಸಿದ್ದೇವೆ. ಇವಾಲ್ಸ್ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಮಾನದಂಡಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದರೊಂದಿಗೆ ಸಹ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ; ನಾವು ಶೈಕ್ಷಣಿಕ ಮಾನದಂಡಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವ ಹಲವಾರು ನೋಟ್‌ಬುಕ್‌ಗಳನ್ನು⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಮತ್ತು CoQA⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅನ್ನು ಸಂಯೋಜಿಸುವ (ಸಣ್ಣ ಉಪವಿಭಾಗಗಳ) ಕೆಲವು ಮಾರ್ಪಾಡುಗಳನ್ನು ಉದಾಹರಣೆಯಾಗಿ ಸೇರಿಸಿದ್ದೇವೆ.

ನಮ್ಮ ಮಾಡೆಲ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಮತ್ತು ಅತ್ಯಂತ ಆಸಕ್ತಿದಾಯಕ ಉದಾಹರಣೆಗಳನ್ನು ಸಲ್ಲಿಸಲು ನಾವು ಎಲ್ಲರೂ Evals ಅನ್ನು ಬಳಸಲು ಆಹ್ವಾನಿಸುತ್ತೇವೆ. ನಮ್ಮ ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸುವ ಮತ್ತು ನಿರ್ಮಿಸುವ ಪ್ರಕ್ರಿಯೆಯ ಅವಿಭಾಜ್ಯ ಅಂಗವಾಗಿದೆ ಎಂದು ನಾವು ನಂಬುತ್ತೇವೆ ಮತ್ತು ನೇರ ಕೊಡುಗೆಗಳು, ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಾವು ಸ್ವಾಗತಿಸುತ್ತೇವೆ.

ChatGPT Plus

ChatGPT Plus ಚಂದಾದಾರರು ಬಳಕೆಯ ಮಿತಿಯೊಂದಿಗೆ chatgpt.com⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ GPT‑4 ಪ್ರವೇಶವನ್ನು ಪಡೆಯುತ್ತಾರೆ. ಪ್ರಾಯೋಗಿಕವಾಗಿ ಬೇಡಿಕೆ ಮತ್ತು ಸಿಸ್ಟಮ್ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅವಲಂಬಿಸಿ ನಾವು ನಿಖರವಾದ ಬಳಕೆಯ ಮಿತಿಯನ್ನು ಸರಿಹೊಂದಿಸುತ್ತೇವೆ, ಆದರೆ ನಾವು ತೀವ್ರವಾಗಿ ಸಾಮರ್ಥ್ಯ ನಿರ್ಬಂಧಿತರಾಗುತ್ತೇವೆ ಎಂದು ನಿರೀಕ್ಷಿಸುತ್ತೇವೆ (ಆದರೂ ಮುಂಬರುವ ತಿಂಗಳುಗಳಲ್ಲಿ ನಾವು ಸ್ಕೇಲ್ ಅಪ್ ಮತ್ತು ಆಪ್ಟಿಮೈಸ್ ಮಾಡುತ್ತೇವೆ).

ನಾವು ನೋಡುವ ಟ್ರಾಫಿಕ್ ಮಾಡೆಲ್‌ಗಳನ್ನು ಅವಲಂಬಿಸಿ, ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ GPT‑4 ಬಳಕೆಗಾಗಿ ನಾವು ಹೊಸ ಚಂದಾದಾರಿಕೆ ಮಟ್ಟವನ್ನು ಪರಿಚಯಿಸಬಹುದು; ಚಂದಾದಾರಿಕೆ ಇಲ್ಲದವರೂ ಸಹ ಅದನ್ನು ಪ್ರಯತ್ನಿಸಬಹುದಾದ ರೀತಿಯಲ್ಲಿ ಕೆಲವು ಹಂತದಲ್ಲಿ ಉಚಿತ GPT‑4 ಪ್ರಶ್ನೆಗಳನ್ನು ನೀಡಲು ನಾವು ಆಶಿಸುತ್ತೇವೆ.

API

GPT‑4 API ಗೆ ಪ್ರವೇಶವನ್ನು ಪಡೆಯಲು (ಇದು gpt-3.5-turbo ನಂತೆಯೇ ಅದೇ ChatCompletions API⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅನ್ನು ಬಳಸುತ್ತದೆ), ದಯವಿಟ್ಟು ನಮ್ಮ ಕಾಯುವಿಕೆ ಪಟ್ಟಿಗೆ ಸೈನ್ ಅಪ್ ಮಾಡಿ⁠. ನಾವು ಇಂದು ಕೆಲವು ಡೆವಲಪರ್‌ಗಳನ್ನು ಆಹ್ವಾನಿಸಲು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ ಮತ್ತು ಬೇಡಿಕೆಯೊಂದಿಗೆ ಸಾಮರ್ಥ್ಯವನ್ನು ಸಮತೋಲನಗೊಳಿಸಲು ಕ್ರಮೇಣ ಹೆಚ್ಚಿಸುತ್ತೇವೆ. ನೀವು AI ಅಥವಾ AI ಜೋಡಣೆ ಸಮಸ್ಯೆಗಳ ಸಾಮಾಜಿಕ ಪ್ರಭಾವವನ್ನು ಅಧ್ಯಯನ ಮಾಡುವ ಸಂಶೋಧಕರಾಗಿದ್ದರೆ, ನಮ್ಮ ಸಂಶೋಧಕರ ಪ್ರವೇಶ ಕಾರ್ಯಕ್ರಮದ⁠ ಮೂಲಕ ನೀವು ಸಬ್ಸಿಡಿ ಪ್ರವೇಶಕ್ಕಾಗಿ ಅರ್ಜಿ ಸಲ್ಲಿಸಬಹುದು.

ನೀವು ಪ್ರವೇಶ ಪಡೆದ ನಂತರ, ನೀವು gpt-4 ಮಾದರಿಗೆ ಕೇವಲ ಪಠ್ಯ ಆಧಾರಿತ ವಿನಂತಿಗಳನ್ನು ಮಾಡಬಹುದು (ಚಿತ್ರ ಇನ್‌ಪುಟ್‌ಗಳು ಇನ್ನೂ ಸೀಮಿತ ಆಲ್ಫಾ ಹಂತದಲ್ಲಿವೆ), ಮತ್ತು ನಾವು ಹೊಸ ಆವೃತ್ತಿಗಳನ್ನು ಬಿಡುಗಡೆ ಮಾಡುವಂತೆ, ಶಿಫಾರಸು ಮಾಡಿದ ಸ್ಥಿರ ಮಾದರಿಗೆ ಸ್ವಯಂಚಾಲಿತವಾಗಿ ನವೀಕರಿಸುತ್ತೇವೆ (ನೀವು gpt-4-0314 ಅನ್ನು ಕರೆದು ಪ್ರಸ್ತುತ ಆವೃತ್ತಿಯನ್ನು ಪಿನ್ ಮಾಡಬಹುದು, ಇದಕ್ಕೆ ಜೂನ್ 14 ರವರೆಗೆ ಬೆಂಬಲವಿರುತ್ತದೆ). ಬೆಲೆ ನಿಗದಿ 1,000 ಪ್ರಾಂಪ್ಟ್ token ಗಳಿಗೆ $0.03 ಮತ್ತು 1,000 ಕಂಪ್ಲೀಷನ್ token ಗಳಿಗೆ $0.06 ಆಗಿದೆ. ಪೂರ್ವನಿಯೋಜಿತ ದರ ಮಿತಿಗಳು ನಿಮಿಷಕ್ಕೆ 40k token ಗಳು ಮತ್ತು ನಿಮಿಷಕ್ಕೆ 200 ವಿನಂತಿಗಳು.

gpt-4 8,192 token ಗಳ ಸಂದರ್ಭ ಉದ್ದವನ್ನು ಹೊಂದಿದೆ. ನಾವು ನಮ್ಮ 32,768–ಸಂದರ್ಭ (ಸುಮಾರು 50 ಪುಟಗಳ ಪಠ್ಯ) ಆವೃತ್ತಿ, gpt-4-32k ಗೆ ಸೀಮಿತ ಪ್ರವೇಶವನ್ನು ಸಹ ಒದಗಿಸುತ್ತಿದ್ದೇವೆ, ಇದನ್ನು ಕಾಲಾನಂತರದಲ್ಲಿ ಸ್ವಯಂಚಾಲಿತವಾಗಿ ನವೀಕರಿಸಲಾಗುತ್ತದೆ (ಪ್ರಸ್ತುತ ಆವೃತ್ತಿ gpt-4-32k-0314, ಜೂನ್ 14 ರವರೆಗೆ ಸಹ ಬೆಂಬಲಿಸಲಾಗುತ್ತದೆ). 1K ಪ್ರಾಂಪ್ಟ್ token ಗಳಿಗೆ ಬೆಲೆ ನಿಗದಿ $0.06 ಮತ್ತು 1K ಪೂರ್ಣಗೊಳಿಸುವಿಕೆ token ಗಳಿಗೆ $0.12. ನಾವು ಇನ್ನೂ ದೀರ್ಘ ಸಂದರ್ಭಕ್ಕಾಗಿ ಮಾಡೆಲ್ ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸುತ್ತಿದ್ದೇವೆ ಮತ್ತು ನಿಮ್ಮ ಬಳಕೆಯ ಸಂದರ್ಭದಲ್ಲಿ ಅದು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಇಷ್ಟಪಡುತ್ತೇವೆ. ಸಾಮರ್ಥ್ಯದ ಆಧಾರದ ಮೇಲೆ ನಾವು 8K ಮತ್ತು 32K ಎಂಜಿನ್‌ಗಳಿಗೆ ವಿನಂತಿಗಳನ್ನು ವಿಭಿನ್ನ ದರಗಳಲ್ಲಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತಿದ್ದೇವೆ, ಆದ್ದರಿಂದ ನೀವು ವಿಭಿನ್ನ ಸಮಯಗಳಲ್ಲಿ ಅವುಗಳಿಗೆ ಪ್ರವೇಶವನ್ನು ಪಡೆಯಬಹುದು.

ಸಮಾಪ್ತಿ

ಅನೇಕ ಅರ್ಜಿಗಳಿಗೆ ಶಕ್ತಿ ತುಂಬುವ ಮೂಲಕ ಜನರ ಜೀವನವನ್ನು ಸುಧಾರಿಸುವಲ್ಲಿ GPT‑4 ಒಂದು ಅಮೂಲ್ಯ ಸಾಧನವಾಗುವುದನ್ನು ನಾವು ಎದುರು ನೋಡುತ್ತಿದ್ದೇವೆ. ಇನ್ನೂ ಮಾಡಲು ಬಹಳಷ್ಟು ಕೆಲಸಗಳಿವೆ, ಮತ್ತು ಮಾಡೆಲ್‌ನ ಮೇಲೆ ಸಮುದಾಯ ನಿರ್ಮಾಣದ ಸಾಮೂಹಿಕ ಪ್ರಯತ್ನಗಳ ಮೂಲಕ, ಅನ್ವೇಷಿಸುವ ಮತ್ತು ಕೊಡುಗೆ ನೀಡುವ ಮೂಲಕ ಈ ಮಾದರಿಯನ್ನು ಸುಧಾರಿಸಲು ನಾವು ಎದುರು ನೋಡುತ್ತಿದ್ದೇವೆ.

ಇನ್ನಷ್ಟು ಮಾಹಿತಿಗಾಗಿ: ಪೇಪರ್ ಓದಿ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) / ಸಿಸ್ಟಂ ಕಾರ್ಡ್ ಅನ್ನು ವೀಕ್ಷಿಸಿ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) / ChatGPT Plus ನಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) / Playground ನಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) / ಡೆಮೊ ಲೈವ್‌ಸ್ಟ್ರೀಮ್ ಅನ್ನು ಮರು ವೀಕ್ಷಿಸಿ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) / OpenAI Evals ಗೆ ಕೊಡುಗೆ ನೀಡಿ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ)

ಅನುಬಂಧ

MMLU ಪ್ರಶ್ನೆಗಳ ಉದಾಹರಣೆ, ಇತರ ಭಾಷೆಗಳಿಗೆ ಅನುವಾದಿಸಲಾಗಿದೆ. ಗಮನಿಸಿ, ನಾವು ಸ್ಥಿರವಾದ ಆಯ್ಕೆ token ಗಳನ್ನು ಬಳಸುತ್ತೇವೆ (A–D):

ಲೋಡ್ ಆಗುತ್ತಿದೆ...

ಅಡಿಟಿಪ್ಪಣಿಗಳು

A
ಸಂದರ್ಭದಲ್ಲಿ ಟ್ರೈನಿಂಗ್ ಸೆಟ್‌ನಿಂದ 4 ಉದಾಹರಣೆಗಳೊಂದಿಗೆ ಚೈನ್-ಆಫ್-ಥಾಟ್ ಪ್ರಾಂಪ್ಟಿಂಗ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಈ ಮಾನದಂಡವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತೇವೆ. ನಿರ್ದಿಷ್ಟ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಮೌಲ್ಯೀಕರಣ ಸೆಟ್‌ನಲ್ಲಿ ಟ್ಯೂನ್ ಮಾಡಲಾಗಿದೆ.

ಉಲ್ಲೇಖಗಳು

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). ಹೆಚ್ಚಿನ ವಿಶ್ಲೇಷಣೆ ಪತ್ರಿಕೆಯಲ್ಲಿ⁠(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಲಭ್ಯವಿದೆ.