OpenAI o3 and o4-mini ਸਾਡੀ o-series ਦੇ ਸਭ ਤੋਂ ਨਵੇਂ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਹਨ. ਪਹਿਲੀ ਵਾਰ, ਸਾਡੇ ਮਾਡਲ ਆਪਣੀ ਚੇਨ-ਆਫ-ਥੌਟ ਵਿੱਚ ਚਿੱਤਰਾਂ ਨਾਲ ਸੋਚ ਸਕਦੇ ਹਨ—ਸਿਰਫ਼ ਉਹਨਾਂ ਨੂੰ ਦੇਖਦੇ ਹੀ ਨਹੀਂ.
ਸਾਡੇ ਪਹਿਲਾਂ ਦੇ OpenAI o1 ਮਾਡਲ ਵਾਂਗ, o3 ਅਤੇ o4-mini ਨੂੰ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਵੱਧ ਸਮੇਂ ਲਈ ਸੋਚਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ—ਅਤੇ ਵਰਤੋਂਕਾਰ ਨੂੰ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਲੰਬੀ ਅੰਦਰੂਨੀ ਚੇਨ-ਆਫ-ਥੌਟ ਵਰਤਣ ਲਈ ਵੀ. o3 ਅਤੇ o4-mini ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਆਪਣੀ ਚੇਨ-ਆਫ-ਥੌਟ ਵਿੱਚ ਚਿੱਤਰਾਂ ਨਾਲ ਸੋਚ ਕੇ ਹੋਰ ਵਧਾਉਂਦੇ ਹਨ, ਜੋ ਟੂਲਾਂ ਨਾਲ ਵਰਤੋਂਕਾਰ ਦੁਆਰਾ ਅੱਪਲੋਡ ਕੀਤੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ ਬਦਲ ਕੇ ਸੰਭਵ ਹੁੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹਨਾਂ ਨੂੰ ਕ੍ਰਾਪ ਕਰਨ, ਜ਼ੂਮ ਇਨ ਕਰਨ ਅਤੇ ਘੁਮਾਉਣ ਦੇ ਨਾਲ-ਨਾਲ ਹੋਰ ਸਧਾਰਣ ਚਿੱਤਰ ਪ੍ਰੋਸੈਸਿੰਗ ਤਕਨੀਕਾਂ ਵਰਤਣ ਦੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ. ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਸਮਰੱਥਾਵਾਂ ਮੂਲ ਤੌਰ ‘ਤੇ ਆਉਂਦੀਆਂ ਹਨ, ਵੱਖਰੇ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ‘ਤੇ ਨਿਰਭਰ ਕੀਤੇ ਬਿਨਾਂ.
ChatGPT ਦੀ ਵਧੀਕ ਵਿਜ਼ੂਅਲ ਬੁੱਧੀਮੱਤਾ ਤੁਹਾਨੂੰ ਚਿੱਤਰਾਂ ਦਾ ਪਹਿਲਾਂ ਨਾਲੋਂ ਹੋਰ ਡੂੰਘੇ, ਹੋਰ ਸਹੀ ਅਤੇ ਹੋਰ ਭਰੋਸੇਯੋਗ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਔਖੀਆਂ ਸਮੱਸਿਆਵਾਂ ਹੱਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ. ਇਹ ਵੈੱਬ ਖੋਜ ਅਤੇ ਚਿੱਤਰ ਮੈਨਿਪੂਲੇਸ਼ਨ ਵਰਗੇ ਟੂਲਾਂ ਨਾਲ ਅਗੇਤੀ ਰੀਜ਼ਨਿੰਗ ਨੂੰ ਬਿਨਾਂ ਰੁਕਾਵਟ ਜੋੜ ਸਕਦੀ ਹੈ—ਤੁਹਾਡੀਆਂ ਤਸਵੀਰਾਂ ਤੋਂ, ਭਾਵੇਂ ਉਹ ਅਧੂਰੀਆਂ ਹੀ ਕਿਉਂ ਨਾ ਹੋਣ, ਜਾਣਕਾਰੀਆਂ ਕੱਢਣ ਲਈ ਆਪਣੇ ਆਪ ਜ਼ੂਮ, ਕ੍ਰਾਪ, ਫਲਿਪ ਜਾਂ ਸੁਧਾਰ ਕਰਦੀ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਤੁਸੀਂ ਕਦਮ-ਦਰ-ਕਦਮ ਸਮਝਾਵੇ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਅਰਥਸ਼ਾਸਤਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦੀ ਇੱਕ ਫੋਟੋ ਅੱਪਲੋਡ ਕਰ ਸਕਦੇ ਹੋ, ਜਾਂ ਮੂਲ ਕਾਰਨ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਲਦੀ ਲੈਣ ਲਈ ਬਿਲਡ ਐਰਰ ਦਾ ਸਕ੍ਰੀਨਸ਼ਾਟ ਸਾਂਝਾ ਕਰ ਸਕਦੇ ਹੋ.
ਇਹ ਪਹੁੰਚ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਸਕੇਲਿੰਗ ਲਈ ਇੱਕ ਨਵਾਂ ਮਾਪਦੰਡ ਸੰਭਵ ਬਣਾਉਂਦੀ ਹੈ ਜੋ ਵਿਜ਼ੂਅਲ ਅਤੇ ਲਿਖਤੀ ਰੀਜ਼ਨਿੰਗ ਨੂੰ ਬਿਨਾਂ ਰੁਕਾਵਟ ਮਿਲਾਉਂਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਮਲਟੀਮੋਡਲ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦੀ state-of-the-art ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਦਰਸਾਇਆ ਗਿਆ ਹੈ, ਅਤੇ ਇਹ ਮਲਟੀਮੋਡਲ ਰੀਜ਼ਨਿੰਗ ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ.
ਚਿੱਤਰਾਂ ਨਾਲ ਸੋਚਣਾ ਤੁਹਾਨੂੰ ChatGPT ਨਾਲ ਹੋਰ ਆਸਾਨੀ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ. ਤੁਸੀਂ ਵਸਤੂਆਂ ਦੀ ਸਥਿਤੀ ਦੀ ਚਿੰਤਾ ਕੀਤੇ ਬਿਨਾਂ ਫੋਟੋ ਖਿੱਚ ਕੇ ਸਵਾਲ ਪੁੱਛ ਸਕਦੇ ਹੋ—ਚਾਹੇ ਲਿਖਤ ਉਲਟੀ ਹੋਵੇ ਜਾਂ ਇੱਕੋ ਫੋਟੋ ਵਿੱਚ ਕਈ ਭੌਤਿਕੀ ਸਮੱਸਿਆਵਾਂ ਹੋਣ. ਭਾਵੇਂ ਵਸਤੂਆਂ ਪਹਿਲੀ ਨਜ਼ਰ ਵਿੱਚ ਸਪਸ਼ਟ ਨਾ ਹੋਣ, ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਨੂੰ ਹੋਰ ਸਾਫ਼ ਦੇਖਣ ਲਈ ਜ਼ੂਮ ਇਨ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ.
ਸਾਰੇ ਉਦਾਹਰਨ OpenAI o3 ਨਾਲ ਪੂਰੇ ਕੀਤੇ ਗਏ ਸਨ.
ਸਾਡੇ ਸਭ ਤੋਂ ਨਵੇਂ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ Python ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਵੈੱਬ ਖੋਜ, ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਵਰਗੇ ਹੋਰ ਟੂਲਾਂ ਨਾਲ ਮਿਲ ਕੇ ਹੋਰ ਜਟਿਲ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਰਚਨਾਤਮਕ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰਦੇ ਹਨ, ਅਤੇ ਵਰਤੋਂਕਾਰਾਂ ਨੂੰ ਸਾਡਾ ਪਹਿਲਾ ਮਲਟੀਮੋਡਲ ਏਜੰਟਿਕ ਅਨੁਭਵ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ.
ਸਾਡੇ ਪਿਛਲੇ ਮਲਟੀਮੋਡਲ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਸੁਧਾਰ ਨੂੰ ਉਜਾਗਰ ਕਰਨ ਲਈ, ਅਸੀਂ OpenAI o3 ਅਤੇ o4-mini ਨੂੰ ਮਨੁੱਖੀ ਪ੍ਰੀਖਿਆਵਾਂ ਅਤੇ ML ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਇੱਕ ਵਿਭਿੰਨ ਸੈੱਟ ‘ਤੇ ਪਰਖਿਆ. ਇਹ ਨਵੇਂ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਸਾਡੇ ਦੁਆਰਾ ਪਰਖੇ ਗਏ ਸਾਰੇ ਮਲਟੀਮੋਡਲ ਕੰਮਾਂ ਵਿੱਚ ਆਪਣੇ ਪੂਰਵਜਾਂ ਨਾਲੋਂ ਕਾਫੀ ਬਿਹਤਰ ਹਨ.
ਸਾਰੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਉੱਚ ‘ਰੀਜ਼ਨਿੰਗ ਯਤਨ’ ਸੈਟਿੰਗਾਂ ‘ਤੇ ਕੀਤਾ ਜਾਂਦਾ ਹੈ—ਜੋ ChatGPT ਵਿੱਚ ‘o4-mini-high’ ਵਰਗੇ ਵੈਰੀਐਂਟਾਂ ਨਾਲ ਮਿਲਦੀਆਂ ਹਨ.
ਖ਼ਾਸ ਤੌਰ ‘ਤੇ, ਚਿੱਤਰਾਂ ਨਾਲ ਸੋਚਣਾ—ਬ੍ਰਾਊਜ਼ਿੰਗ ‘ਤੇ ਨਿਰਭਰ ਕੀਤੇ ਬਿਨਾਂ—ਸਾਡੇ ਦੁਆਰਾ ਮੁਲਾਂਕਣ ਕੀਤੇ ਸਾਰੇ ਪਰਸੈਪਸ਼ਨ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਲਿਆਉਂਦਾ ਹੈ. ਸਾਡੇ ਮਾਡਲਾਂ ਨੇ STEM ਪ੍ਰਸ਼ਨ-ਉੱਤਰ (MMMU, MathVista), ਚਾਰਟ ਪੜ੍ਹਨ ਅਤੇ ਰੀਜ਼ਨਿੰਗ (CharXiv), ਪਰਸੈਪਸ਼ਨ ਪ੍ਰਿਮਿਟਿਵਜ਼ (VLMs are Blind), ਅਤੇ ਵਿਜ਼ੂਅਲ ਖੋਜ (V*) ਵਿੱਚ ਨਵੀਂ state-of-the-art ਕਾਰਗੁਜ਼ਾਰੀ ਸਥਾਪਿਤ ਕੀਤੀ ਹੈ. V* ‘ਤੇ, ਸਾਡਾ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਤਰੀਕਾ 95.7% ਸਹੀਪਨ ਹਾਸਲ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਬੈਂਚਮਾਰਕ ਲਗਭਗ ਹੱਲ ਹੋ ਜਾਂਦਾ ਹੈ.
ਚਿੱਤਰਾਂ ਨਾਲ ਸੋਚਣ ਵਿੱਚ ਇਸ ਵੇਲੇ ਹੇਠ ਲਿਖੀਆਂ ਸੀਮਾਵਾਂ ਹਨ:
- ਬੇਹੱਦ ਲੰਬੀਆਂ ਰੀਜ਼ਨਿੰਗ ਚੇਨਾਂ: ਮਾਡਲ ਕਈ ਵਾਰ ਦੁਹਰਾਈਆਂ ਜਾਂ ਗੈਰ-ਜ਼ਰੂਰੀ ਟੂਲ ਕਾਲਾਂ ਅਤੇ ਚਿੱਤਰ ਮੈਨਿਪੂਲੇਸ਼ਨ ਕਦਮ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਚੇਨ-ਆਫ-ਥੌਟ ਬਹੁਤ ਲੰਬੀ ਹੋ ਜਾਂਦੀ ਹੈ.
- ਪਰਸੈਪਸ਼ਨ ਗਲਤੀਆਂ: ਮਾਡਲ ਅਜੇ ਵੀ ਮੂਲ ਪਰਸੈਪਸ਼ਨ ਗਲਤੀਆਂ ਕਰ ਸਕਦੇ ਹਨ. ਜਦੋਂ ਟੂਲ ਕਾਲਾਂ ਰੀਜ਼ਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਠੀਕ ਤਰ੍ਹਾਂ ਅੱਗੇ ਵਧਾਉਂਦੀਆਂ ਹਨ, ਤਦ ਵੀ ਵਿਜ਼ੂਅਲ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਗਲਤ ਅੰਤਿਮ ਜਵਾਬਾਂ ਤੱਕ ਲੈ ਜਾ ਸਕਦੀਆਂ ਹਨ.
- ਭਰੋਸੇਯੋਗਤਾ: ਮਾਡਲ ਕਿਸੇ ਸਮੱਸਿਆ ਦੇ ਕਈ ਯਤਨਾਂ ਦੌਰਾਨ ਵੱਖ-ਵੱਖ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਪ੍ਰਕਿਰਿਆਵਾਂ ਅਜ਼ਮਾ ਸਕਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਗਲਤ ਨਤੀਜਿਆਂ ਤੱਕ ਲੈ ਜਾ ਸਕਦੀਆਂ ਹਨ.
OpenAI o3 ਅਤੇ o4-mini state-of-the-art ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਕਾਫੀ ਅੱਗੇ ਲੈ ਜਾਂਦੇ ਹਨ, ਜੋ ਵਿਆਪਕ ਮਲਟੀਮੋਡਲ ਰੀਜ਼ਨਿੰਗ ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ. ਇਹ ਮਾਡਲ ਵਿਜ਼ੂਅਲ ਪਰਸੈਪਸ਼ਨ ਕੰਮਾਂ ‘ਤੇ ਆਪਣੀ ਸ਼੍ਰੇਣੀ ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਸਹੀਪਨ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਇਹ ਉਹ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਪਹਿਲਾਂ ਪਹੁੰਚ ਤੋਂ ਬਾਹਰ ਸਨ.
ਅਸੀਂ ਚਿੱਤਰਾਂ ਨਾਲ ਮਾਡਲਾਂ ਦੀਆਂ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਹੋਰ ਸੰਖੇਪ, ਘੱਟ ਦੁਹਰਾਓ ਵਾਲੀਆਂ ਅਤੇ ਹੋਰ ਭਰੋਸੇਯੋਗ ਬਣਾਉਣ ਲਈ ਲਗਾਤਾਰ ਨਿਖਾਰ ਰਹੇ ਹਾਂ. ਅਸੀਂ ਮਲਟੀਮੋਡਲ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਆਪਣਾ ਖੋਜ ਕੰਮ ਜਾਰੀ ਰੱਖਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ, ਅਤੇ ਇਸ ਲਈ ਵੀ ਕਿ ਲੋਕ ਵੇਖ ਸਕਣ ਕਿ ਇਹ ਸੁਧਾਰ ਉਹਨਾਂ ਦੇ ਰੋਜ਼ਾਨਾ ਕੰਮ ਨੂੰ ਕਿਵੇਂ ਬਿਹਤਰ ਬਣਾ ਸਕਦੇ ਹਨ.
16 ਅਪ੍ਰੈਲ ਅਪਡੇਟ: Charxiv-r, Mathvista, ਅਤੇ vlmsareblind ‘ਤੇ o3 ਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਉਸ ਸਿਸਟਮ ਪ੍ਰੌੰਪਟ ਬਦਲਾਅ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਅਪਡੇਟ ਕੀਤਾ ਗਿਆ ਜੋ ਮੂਲ ਮੁਲਾਂਕਣ ਵਿੱਚ ਮੌਜੂਦ ਨਹੀਂ ਸੀ.
ਲੇਖਕ
ਯੋਗਦਾਨਕਰਤਾ
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








