

2012થી, Be My Eyes અંધ અથવા ઓછી દૃષ્ટિ ધરાવતા 250 મિલિયનથી વધુ લોકોના સમુદાય માટે ટેક્નોલોજી બનાવી રહી છે. આ ડેનિશ સ્ટાર્ટઅપ અંધ અથવા ઓછી દૃષ્ટિ ધરાવતા લોકોને ઉત્પાદન ઓળખવા કે એરપોર્ટમાં માર્ગ શોધવા જેવી દૈનિક જીવનની સૈંકડો કામગીરીમાં મદદ માટે સ્વયંસેવકો સાથે જોડે છે.
GPT‑4 ની નવી દૃશ્ય ઇનપુટ ક્ષમતા (રિસર્ચ પ્રિવ્યુમાં) સાથે, Be My Eyes એ પોતાની એપમાં GPT‑4 સંચાલિત Virtual Volunteer™ વિકસાવવાનું શરૂ કર્યું, જે માનવીય સ્વયંસેવક જેટલું જ સંદર્ભ અને સમજણ પેદા કરી શકે છે.
“અમને ઍક્સેસ મળ્યા બાદના ટૂંકા સમયમાં જ, અમે ત્યાં ઉપલબ્ધ કોઈપણ ઇમેજ-ટુ-ટેક્સ્ટ ઑબ્જેક્ટ રેકગ્નિશન ટૂલ કરતાં બેમિસાલ પ્રદર્શન જોયું છે," Be My Eyes ના CEO માઇકલ બક્લી કહે છે. “વૈશ્વિક સુલભતા માટેના તેના અર્થ અત્યંત ઊંડા છે. બહુ દૂર નહીં એવા ભવિષ્યમાં, અંધ અને ઓછી દૃષ્ટિ ધરાવતો સમુદાય આ સાધનોનો ઉપયોગ માત્ર વિવિધ દૃશ્ય અર્થઘટનની જરૂરિયાતો માટે જ નહીં, પરંતુ પોતાના જીવનમાં વધુ સ્વતંત્રતા મેળવવા માટે પણ કરશે.”
અચાનક, કોઈ વ્યક્તિએ મોકલેલી, માનો કે, પોતાના ફ્રિજની અંદરની વસ્તુઓની છબીમાં, GPT‑4 ટેક્નોલોજી માત્ર તેમાં શું છે તે ઓળખી અને નામ આપતી નથી, પરંતુ તે ઘટકોથી તમે શું બનાવી શકો તેનો અંદાજ અને વિશ્લેષણ પણ કરે છે. પછી તમે તેને સારી રેસીપી માટે પૂછી શકો. તેના ઉપયોગના કિસ્સાઓ લગભગ અમર્યાદિત છે.
“આ તો રમત બદલનાર છે,” બક્લી કહે છે. “અંતે, વપરાશકર્તા જે કંઈ ઇચ્છે કે જરૂર રાખે, તે વધુ ઉપયોગી, ફાયદાકારક અને મદદરૂપ માહિતી મેળવવા માટે સાધનને ફરી પ્રોમ્પ્ટ કરી શકે છે, લગભગ તરત જ.”
ફેબ્રુઆરીની શરૂઆતમાં, કંપનીએ થોડા કર્મચારીઓના નાના સમૂહ સાથે GPT આધારિત સહાયકનું બેટા-ટેસ્ટિંગ શરૂ કર્યું. પરિણામો એટલા સકારાત્મક રહ્યા છે કે આ સુવિધા થોડા જ અઠવાડિયામાં વપરાશકર્તાઓના હાથમાં હશે.
“અમારા સમુદાય માટે અહીં અદ્ભુત સંભાવના છે,” બક્લી કહે છે. “લૂસી એડવર્ડ્સ સહિત અમારા બેટા ટેસ્ટર્સને આ પહેલેથી જ ખૂબ ગમે છે.”
Be My Eyes ના CTO જેસ્પર હ્વિરિંગ હેનરિકસન સમજાવે છે કે GPT‑4 અને અન્ય ભાષા તથા મશીન લર્નિંગ મોડલ વચ્ચેનો ફરક માત્ર સંવાદ કરવાની ક્ષમતા જ નહીં, પરંતુ ટેક્નોલોજી દ્વારા મળતી ઊંચી સ્તરની વિશ્લેષણાત્મક કુશળતા પણ છે. “મૂળભૂત ઇમેજ રેકગ્નિશન એપ્લિકેશનો તમને ફક્ત તમારી સામે શું છે તે જ કહે છે”, તેઓ કહે છે. “તે નૂડલ્સમાં યોગ્ય પ્રકારના ઘટકો છે કે નહીં, અથવા જમીન પરની વસ્તુ માત્ર બોલ નથી પરંતુ અથડાઈ જવાનું જોખમ છે કે નહીં, તે સમજવા માટે ચર્ચા કરી શકતી નથી—અને તે વાત સમજાવી પણ શકતી નથી.”
“GPT-4 અને અન્ય ભાષા તથા મશીન લર્નિંગ મોડલ વચ્ચેનો ફરક માત્ર સંવાદ કરવાની ક્ષમતા જ નહીં, પરંતુ ટેક્નોલોજી દ્વારા મળતી ઊંચી સ્તરની વિશ્લેષણાત્મક કુશળતા પણ છે.”
કંપની પાસે પહેલેથી જ એવો એક કિસ્સો છે જેમાં વપરાશકર્તા રેલવે સિસ્ટમમાં માર્ગ શોધી શક્યો હતો—જે કદાચ જોતા લોકો માટે પણ અશક્ય કામ ગણાય—માત્ર નકશા પર તેઓ ક્યાં હતા તેની વિગતો જ નહીં, પરંતુ તેઓ જ્યાં જવા માગતા હતા ત્યાં સુરક્ષિત રીતે પહોંચવા માટે પગલું-દર-પગલું સૂચનાઓ પણ મેળવી હતી.
પણ જટિલ ભૌતિક દુનિયામાં માર્ગ પસાર કરવો માત્ર અડધી વાર્તા છે. સ્ક્રીન પર શું છે તે સમજવું, જે વ્યક્તિ જોઈ શકતી નથી તેના માટે બમણું કઠિન બની શકે છે. મોટાભાગની આધુનિક ઑપરેટિંગ સિસ્ટમોમાં સામેલ સ્ક્રીન રીડર્સ વેબ પેજ અથવા ડેસ્કટોપ એપ્લિકેશનના ભાગોને લાઇન-દર-લાઇન, વિભાગ-દર-વિભાગ વાંચે છે અને દરેક શબ્દ બોલે છે. વેબ પર સંચારનું કેન્દ્ર રહેલી છબીઓ તો વધુ મુશ્કેલ બની શકે છે.
તેમ છતાં, હેનરિકસન કહે છે કે હવે તેઓ GPT‑4 ને વેબપેજ બતાવી શકે છે અને સિસ્ટમ જાણે છે—અસંખ્ય તાલીમ કલાકો પછી, જ્યાં ડીપ લર્નિંગ અલ્ગોરિધમ્સ વેબપેજના “મહત્વના” ભાગને સમજવા માટે સંબંધો બનાવે છે—કે કયો ભાગ વાંચવો અથવા સારાંશ આપવો. આ માત્ર ઑનલાઇન સમાચાર વાંચવા જેવી કામગીરીને સરળ બનાવતું નથી, પરંતુ દૃશ્ય સહાયની જરૂર ધરાવતા લોકોને વેબના કેટલાક સૌથી ગૂંચવાયેલા પેજો, એટલે કે શોપિંગ અને ઈ-કોમર્સ સાઇટ્સ, સુધી પહોંચ આપે છે. GPT‑4 શોધ પરિણામોનો સારાંશ એવી રીતે આપી શકે છે જેમ જોઈ શકતા લોકો સ્વાભાવિક રીતે તેને સ્કેન કરે છે—દરેક નાનામાં નાની વિગત ન વાંચીને મહત્વના ડેટા પોઇન્ટ્સ વચ્ચે આગળ વધતા—અને દૃષ્ટિ આધારની જરૂર ધરાવતા લોકોને વાસ્તવિક સમયમાં યોગ્ય ખરીદી કરવામાં મદદ કરે છે.
“આ માનવજાત માટે અદ્ભુત વિકાસ છે”, બક્લી કહે છે, “પણ તે વિશાળ વ્યાપારી તક પણ રજૂ કરે છે.”


