Үндсэн агуулга руу алгасах
OpenAI

2023 оны есдүгээр сарын 25

Бүтээгдэхүүн

ChatGPT одоо харж, сонсож, ярьж чадна

ChatGPT Can Now See Hear And Speak

Бид ChatGPT‑д шинэ дуу хоолой болон дүрсний боломжуудыг аажмаар нэвтрүүлж эхэлж байна. Эдгээр нь танд дуут харилцан яриа өрнүүлэх эсвэл юу ярьж байгаагаа ChatGPT‑д харуулах боломж олгосноор илүү ойлгомжтой, шинэ төрлийн интерфейс санал болгодог.

Дуу хоолой ба дүрс нь ChatGPT‑ийг амьдралдаа ашиглах илүү олон арга замыг танд өгнө. Аялж явахдаа дурсгалт газрын зураг авч, түүний юу нь сонирхолтой талаар шууд яриа өрнүүлээрэй. Гэртээ байхдаа хөргөгч, агуулахынхаа зургийг авч оройн хоолонд юу хийхээ шийдээрэй (мөн алхам алхмаар жор авахын тулд нэмэлт асуулт асуугаарай). Оройн хоолны дараа хүүхдэдээ математикийн бодлогод нь туслахын тулд зураг авч, бодлогын хэсгийг дугуйлж, та хоёрт хоёуланд нь зөвлөмж хуваалцуулаарай.

Бид ирэх хоёр долоо хоногт ChatGPT дэх дуу хоолой болон дүрсийн боломжуудыг Plus болон Enterprise хэрэглэгчдэд нэвтрүүлж байна. Дуу хоолой iOS болон Android дээр ирэх бөгөөд (тохиргоондоо идэвхжүүлнэ), дүрс бүх платформ дээр ашиглах боломжтой болно.

ChatGPT-тэй ярьж, хариу яриулах

Та одоо туслахтайгаа дуу хоолойгоор ээлжилсэн харилцан яриа өрнүүлж чадна. Замд явж байхдаа түүнтэй ярилцах, гэр бүлийнхэндээ унтахын өмнөх үлгэр хүсэх, эсвэл оройн хоолны ширээний маргааныг шийдэхэд ашиглаарай.

Use voice to engage in a back-and-forth conversation with your assistant.

Дуу хоолойг эхлүүлэхийн тулд мобайл аппын Settings → New Features хэсэгт орж, дуут харилцан ярианд нэгдэнэ үү. Дараа нь үндсэн дэлгэцийн баруун дээд буланд байгаа чихэвчний товчийг дарж, таван өөр дуу хоолойноос хүссэнээ сонгоорой.

Шинэ дуу хоолойн боломжийг шинэ text-to-speech загвар дэмждэг бөгөөд энэ нь зөвхөн текст болон хэдхэн секундын жишээ ярианаас хүнийхтэй төстэй аудио үүсгэх чадвартай. Бид дуу хоолой бүрийг бүтээхийн тулд мэргэжлийн дуу оруулагчидтай хамтран ажилласан. Мөн бид таны хэлсэн үгийг текст болгон буулгахдаа нээлттэй эхийн яриа таних систем болох Whisper-ийг ашигладаг.

Ачаалж байна...

Зургийн талаар чатлах

Та одоо ChatGPT‑д нэг эсвэл хэд хэдэн зураг үзүүлж болно. Грилл яагаад асахгүй байгааг оношлох, хөргөгчнийхөө агуулгыг судалж хоол төлөвлөх, эсвэл ажилтай холбоотой өгөгдлийн нарийн төвөгтэй графикийг шинжлэхэд ашиглаарай. Зургийн тодорхой хэсэгт төвлөрөхийн тулд манай мобайл апп дахь зурах хэрэгслийг ашиглаж болно.

Show ChatGPT one or more images.

Эхлэхийн тулд зургийн товчийг дарж зураг авах эсвэл сонгоно уу. Хэрэв та iOS эсвэл Android дээр байгаа бол эхлээд plus товчийг дарна уу. Мөн хэд хэдэн зургийн талаар ярилцах эсвэл туслахдаа чиглэл өгөхийн тулд манай зурах хэрэгслийг ашиглаж болно.

Дүрс ойлголтыг олон горимт GPT‑3.5 болон GPT‑4 дэмждэг. Эдгээр загварууд зураг, дэлгэцийн агшин, текст ба зураг хоёуланг агуулсан баримт зэрэг өргөн хүрээний дүрсэнд хэлний сэтгэн бодох чадвараа ашигладаг.

Бид дүрс, дуу хоолойн боломжийг аажмаар нэвтрүүлж байна

OpenAI-ийн зорилго бол аюулгүй, үр өгөөжтэй AGI бүтээх юм. Бид хэрэгслүүдээ аажмаар нэвтрүүлэх нь сайжруулалт хийж, эрсдэлийг бууруулах арга хэмжээг цаг хугацааны явцад нарийвчлан боловсронгуй болгохын зэрэгцээ ирээдүйн илүү хүчирхэг системүүдэд хүн бүрийг бэлтгэх боломж олгодог гэж үздэг. Дуу хоолой болон дүрсийг хамарсан дэвшилтэт загваруудын хувьд энэ стратеги бүр ч илүү чухал болдог.

Дуу хоолой

Бодит ярианы ердөө хэдхэн секундын бичлэгээс бодит мэт синтетик дуу хоолой бүтээх чадвартай шинэ дуу хоолойн технологи нь бүтээлч болон хүртээмжид чиглэсэн олон хэрэглээний үүдийг нээж байна. Гэвч эдгээр боломжууд нь хорон санаат этгээдүүд олон нийтийн танил хүмүүсийн дүрд хувирах эсвэл луйвар үйлдэх зэрэг шинэ эрсдэлийг мөн дагуулдаг.

Тиймээс бид энэ технологийг тодорхой нэг хэрэглээнд—дуут чатад—ашиглаж байна. Дуут чатыг бид шууд хамтран ажилласан дуу оруулагчидтай хамт бүтээсэн. Бид мөн үүнтэй төстэй байдлаар бусадтай хамтран ажиллаж байна. Жишээлбэл, Spotify энэ технологийн хүчийг өөрсдийн Voice Translation(шинэ цонхонд нээгдэнэ) боломжийн туршилтад ашиглаж байгаа бөгөөд энэ нь подкастеруудад өөрсдийн дуу хоолойгоор подкастуудыг нэмэлт хэлнүүдэд орчуулж, өгүүлэмжийнхээ хүртээмжийг тэлэхэд тусалдаг.

Зургийн оролт

Дүрсэнд суурилсан загварууд нь мөн хүмүүсийн тухай хий үзэгдэл мэт буруу дүгнэлтээс эхлээд өндөр эрсдэлтэй салбаруудад зургийн талаарх загварын тайлбарт найдах хүртэл шинэ сорилтуудыг бий болгодог. Илүү өргөн нэвтрүүлэхээс өмнө бид экстремизм, шинжлэх ухааны ур чадвар зэрэг салбар дахь эрсдэлийг үнэлэхээр red teamers болон олон янзын alpha тестерүүдтэй хамт загварыг туршсан. Манай судалгаа хариуцлагатай хэрэглээний хэд хэдэн гол нарийн зүйлийн талаар нэгдсэн ойлголтод хүрэх боломж олгосон.

Дүрсийг ашиг тустай, аюулгүй болгох

ChatGPT‑ийн бусад боломжуудын адил дүрс таних нь таны өдөр тутмын амьдралд туслахад чиглэдэг. Тэр нь таны харж буйг харж чаддаг үедээ хамгийн сайн ажилладаг.

Энэ хандлагыг бид сохор болон хараа султай хүмүүст зориулсан үнэгүй мобайл апп болох Be My Eyes-тэй хамтран хэрэглээ болон хязгаарлалтыг ойлгохоор ажилласан туршлага шууд чиглүүлсэн. Хэрэглэгчид, жишээлбэл удирдлагынхаа тохиргоог ойлгох гэж байх үед арын дэвсгэрт хүмүүс орсон зураг дээр ерөнхий яриа өрнүүлэх нь үнэ цэнтэй санагддаг гэж бидэнд хэлсэн.

Мөн ChatGPT үргэлж үнэн зөв байдаггүй бөгөөд ийм системүүд хувь хүний нууцлалыг хүндэтгэх ёстой тул хүмүүсийн талаар шууд дүн шинжилгээ хийж, шууд мэдэгдэл хийх чадварыг нь мэдэгдэхүйц хязгаарлах техникийн арга хэмжээг бид авсан.

Бодит хэрэглээ болон санал хүсэлт нь энэ хэрэгслийг ашиг тустай хэвээр байлгахын зэрэгцээ эдгээр хамгаалалтыг улам сайжруулахад бидэнд тусална.

Загварын хязгаарлалтын талаар ил тод байдал

Хэрэглэгчид, жишээлбэл судалгаа зэрэг салбарт, ChatGPT‑д мэргэшсэн сэдвүүдээр найдаж магадгүй. Бид загварын хязгаарлалтуудын талаар ил тод байдаг бөгөөд зохих баталгаажуулалтгүй өндөр эрсдэлтэй хэрэглээг discouraged. Цаашлаад, загвар англи текстийг буулгахад чадварлаг боловч бусад зарим хэл дээр, ялангуяа латин бус бичигтэй хэлнүүд дээр муу ажилладаг. Ийм зорилгоор ChatGPT‑ийг ашиглахгүй байхыг англи бус хэлтэй хэрэглэгчдэдээ зөвлөж байна.

Аюулгүй байдлын талаарх бидний хандлага болон Be My Eyes-тэй хийсэн ажлын талаар та зургийн оролтын системийн карт-аас дэлгэрэнгүй уншиж болно.

Бид хандалтыг өргөжүүлнэ

Plus болон Enterprise хэрэглэгчид ирэх хоёр долоо хоногт дуу хоолой болон дүрсийг туршиж үзэх боломжтой болно. Бид эдгээр боломжийг удалгүй хөгжүүлэгчид зэрэг бусад хэрэглэгчийн бүлгүүдэд нэвтрүүлэхдээ баяртай байна.

Зохиогч

OpenAI

Талархал

Дууны горимын үндсэн судалгаа

Alec Radford, Tao Xu, Jong Wook Kim

Дүрс нэвтрүүлэлтийн үндсэн судалгаа

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

GPT-4V(ision)-ийн техникийн ажил болон зохиогчдыг үзэх