મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

Be My Eyes

Be My Eyes દૃશ્ય સુલભતાને રૂપાંતરિત કરવા GPT‑4 નો ઉપયોગ કરે છે.

Be My Eyes
લોડિંગ…
BeMyEyes

2012થી, Be My Eyes અંધ અથવા ઓછી દૃષ્ટિ ધરાવતા 250 મિલિયનથી વધુ લોકોના સમુદાય માટે ટેક્નોલોજી બનાવી રહી છે. આ ડેનિશ સ્ટાર્ટઅપ અંધ અથવા ઓછી દૃષ્ટિ ધરાવતા લોકોને ઉત્પાદન ઓળખવા કે એરપોર્ટમાં માર્ગ શોધવા જેવી દૈનિક જીવનની સૈંકડો કામગીરીમાં મદદ માટે સ્વયંસેવકો સાથે જોડે છે.

GPT‑4 ની નવી દૃશ્ય ઇનપુટ ક્ષમતા (રિસર્ચ પ્રિવ્યુમાં) સાથે, Be My Eyes એ પોતાની એપમાં GPT‑4 સંચાલિત Virtual Volunteer™ વિકસાવવાનું શરૂ કર્યું, જે માનવીય સ્વયંસેવક જેટલું જ સંદર્ભ અને સમજણ પેદા કરી શકે છે.

“અમને ઍક્સેસ મળ્યા બાદના ટૂંકા સમયમાં જ, અમે ત્યાં ઉપલબ્ધ કોઈપણ ઇમેજ-ટુ-ટેક્સ્ટ ઑબ્જેક્ટ રેકગ્નિશન ટૂલ કરતાં બેમિસાલ પ્રદર્શન જોયું છે," Be My Eyes ના CEO માઇકલ બક્લી કહે છે. “વૈશ્વિક સુલભતા માટેના તેના અર્થ અત્યંત ઊંડા છે. બહુ દૂર નહીં એવા ભવિષ્યમાં, અંધ અને ઓછી દૃષ્ટિ ધરાવતો સમુદાય આ સાધનોનો ઉપયોગ માત્ર વિવિધ દૃશ્ય અર્થઘટનની જરૂરિયાતો માટે જ નહીં, પરંતુ પોતાના જીવનમાં વધુ સ્વતંત્રતા મેળવવા માટે પણ કરશે.”  

અચાનક, કોઈ વ્યક્તિએ મોકલેલી, માનો કે, પોતાના ફ્રિજની અંદરની વસ્તુઓની છબીમાં, GPT‑4 ટેક્નોલોજી માત્ર તેમાં શું છે તે ઓળખી અને નામ આપતી નથી, પરંતુ તે ઘટકોથી તમે શું બનાવી શકો તેનો અંદાજ અને વિશ્લેષણ પણ કરે છે. પછી તમે તેને સારી રેસીપી માટે પૂછી શકો. તેના ઉપયોગના કિસ્સાઓ લગભગ અમર્યાદિત છે.

“આ તો રમત બદલનાર છે,” બક્લી કહે છે. “અંતે, વપરાશકર્તા જે કંઈ ઇચ્છે કે જરૂર રાખે, તે વધુ ઉપયોગી, ફાયદાકારક અને મદદરૂપ માહિતી મેળવવા માટે સાધનને ફરી પ્રોમ્પ્ટ કરી શકે છે, લગભગ તરત જ.”

ફેબ્રુઆરીની શરૂઆતમાં, કંપનીએ થોડા કર્મચારીઓના નાના સમૂહ સાથે GPT આધારિત સહાયકનું બેટા-ટેસ્ટિંગ શરૂ કર્યું. પરિણામો એટલા સકારાત્મક રહ્યા છે કે આ સુવિધા થોડા જ અઠવાડિયામાં વપરાશકર્તાઓના હાથમાં હશે.

“અમારા સમુદાય માટે અહીં અદ્ભુત સંભાવના છે,” બક્લી કહે છે. “લૂસી એડવર્ડ્સ સહિત અમારા બેટા ટેસ્ટર્સને આ પહેલેથી જ ખૂબ ગમે છે.”

Be My Eyes ના CTO જેસ્પર હ્વિરિંગ હેનરિકસન સમજાવે છે કે GPT‑4 અને અન્ય ભાષા તથા મશીન લર્નિંગ મોડલ વચ્ચેનો ફરક માત્ર સંવાદ કરવાની ક્ષમતા જ નહીં, પરંતુ ટેક્નોલોજી દ્વારા મળતી ઊંચી સ્તરની વિશ્લેષણાત્મક કુશળતા પણ છે. “મૂળભૂત ઇમેજ રેકગ્નિશન એપ્લિકેશનો તમને ફક્ત તમારી સામે શું છે તે જ કહે છે”, તેઓ કહે છે. “તે નૂડલ્સમાં યોગ્ય પ્રકારના ઘટકો છે કે નહીં, અથવા જમીન પરની વસ્તુ માત્ર બોલ નથી પરંતુ અથડાઈ જવાનું જોખમ છે કે નહીં, તે સમજવા માટે ચર્ચા કરી શકતી નથી—અને તે વાત સમજાવી પણ શકતી નથી.”

“GPT-4 અને અન્ય ભાષા તથા મશીન લર્નિંગ મોડલ વચ્ચેનો ફરક માત્ર સંવાદ કરવાની ક્ષમતા જ નહીં, પરંતુ ટેક્નોલોજી દ્વારા મળતી ઊંચી સ્તરની વિશ્લેષણાત્મક કુશળતા પણ છે.”
જેસ્પર હ્વિરિંગ હેનરિકસન, Be My Eyes ના CTO

કંપની પાસે પહેલેથી જ એવો એક કિસ્સો છે જેમાં વપરાશકર્તા રેલવે સિસ્ટમમાં માર્ગ શોધી શક્યો હતો—જે કદાચ જોતા લોકો માટે પણ અશક્ય કામ ગણાય—માત્ર નકશા પર તેઓ ક્યાં હતા તેની વિગતો જ નહીં, પરંતુ તેઓ જ્યાં જવા માગતા હતા ત્યાં સુરક્ષિત રીતે પહોંચવા માટે પગલું-દર-પગલું સૂચનાઓ પણ મેળવી હતી.

પણ જટિલ ભૌતિક દુનિયામાં માર્ગ પસાર કરવો માત્ર અડધી વાર્તા છે. સ્ક્રીન પર શું છે તે સમજવું, જે વ્યક્તિ જોઈ શકતી નથી તેના માટે બમણું કઠિન બની શકે છે. મોટાભાગની આધુનિક ઑપરેટિંગ સિસ્ટમોમાં સામેલ સ્ક્રીન રીડર્સ વેબ પેજ અથવા ડેસ્કટોપ એપ્લિકેશનના ભાગોને લાઇન-દર-લાઇન, વિભાગ-દર-વિભાગ વાંચે છે અને દરેક શબ્દ બોલે છે. વેબ પર સંચારનું કેન્દ્ર રહેલી છબીઓ તો વધુ મુશ્કેલ બની શકે છે. 

તેમ છતાં, હેનરિકસન કહે છે કે હવે તેઓ GPT‑4 ને વેબપેજ બતાવી શકે છે અને સિસ્ટમ જાણે છે—અસંખ્ય તાલીમ કલાકો પછી, જ્યાં ડીપ લર્નિંગ અલ્ગોરિધમ્સ વેબપેજના “મહત્વના” ભાગને સમજવા માટે સંબંધો બનાવે છે—કે કયો ભાગ વાંચવો અથવા સારાંશ આપવો. આ માત્ર ઑનલાઇન સમાચાર વાંચવા જેવી કામગીરીને સરળ બનાવતું નથી, પરંતુ દૃશ્ય સહાયની જરૂર ધરાવતા લોકોને વેબના કેટલાક સૌથી ગૂંચવાયેલા પેજો, એટલે કે શોપિંગ અને ઈ-કોમર્સ સાઇટ્સ, સુધી પહોંચ આપે છે. GPT‑4 શોધ પરિણામોનો સારાંશ એવી રીતે આપી શકે છે જેમ જોઈ શકતા લોકો સ્વાભાવિક રીતે તેને સ્કેન કરે છે—દરેક નાનામાં નાની વિગત ન વાંચીને મહત્વના ડેટા પોઇન્ટ્સ વચ્ચે આગળ વધતા—અને દૃષ્ટિ આધારની જરૂર ધરાવતા લોકોને વાસ્તવિક સમયમાં યોગ્ય ખરીદી કરવામાં મદદ કરે છે.

“આ માનવજાત માટે અદ્ભુત વિકાસ છે”, બક્લી કહે છે, “પણ તે વિશાળ વ્યાપારી તક પણ રજૂ કરે છે.”

વ્યવસાય માટે ChatGPT વિશે વધુ જાણવા ઇચ્છો છો?