۲۹ جنوری، ۲۰۲۶

OpenAI کے اِن ہاؤس ڈیٹا ایجنٹ کے اندر

بطرف بونی ژو، اراوند سریش اور ایما ٹینگ

لوڈ ہو رہا ہے…

ڈیٹا اس امر کو تقویت دیتا ہے کہ نظام کیسے سیکھتے ہیں، مصنوعات کیسے ترقی کرتی ہیں اور کمپنیاں کیسے فیصلے کرتی ہیں. لیکن جوابات کو جلدی، درستگی سے اور صحیح سیاق و سباق کے ساتھ حاصل کرنا اکثر اتنا مشکل ہوتا ہے جتنا کہ نہیں ہونا چاہیے. OpenAI کے وسعت اختیار کرنے کے ساتھ اسے آسان بنانے کے لیے، ہم نے اپنا خود کا مخصوص اندرون خانہ AI ڈیٹا ایجنٹ تیار کیا ہے جو ہمارے اپنے پلیٹ فارم پر کھوج کرتا ہے اور استدلال کرتا ہے.

ہمارا ایجنٹ ایک حسب ضرورت اندرونی استعمال کا ٹول ہے (کوئی بیرونی پیشکش نہیں)، جو خاص طور پر OpenAI کے ڈیٹا، اجازتوں اور ورک فلو کے مطابق بنایا گیا ہے. ہم یہ دکھا رہے ہیں کہ ہم نے اسے کیسے بنایا اور استعمال کیا تاکہ حقیقی اور مؤثر طریقوں کی مثالیں سامنے لائی جا سکیں کہ AI ہماری ٹیموں کے روزمرہ کے کام میں کس طرح معاونت کر سکتا ہے. OpenAI کے وہ ٹولز جنہیں ہم نے اسے بنانے اور چلانے کے لیے استعمال کیا (Codex، ہمارا GPT‑5 فلیگ شپ ماڈل، Evals API⁠(نئی ونڈو میں کھلتا ہے) اور ایمبیڈنگز API⁠(نئی ونڈو میں کھلتا ہے)) وہی ٹولز ہیں جو ہم دنیا بھر کے ڈویلپرز کو دستیاب کرتے ہیں.

ہمارا ڈیٹا ایجنٹ ملازمین کو سوال سے بصیرت تک چند منٹوں میں لے جانے کی اجازت دیتا ہے، دنوں میں نہیں. یہ تمام شعبوں میں ڈیٹا حاصل کرنے اور باریک بینی سے تجزیہ کرنے کی رکاوٹ کو کم کرتا ہے، نہ کہ صرف ہماری ڈیٹا ٹیم کے ذریعے. آج، OpenAI میں انجینئرنگ، ڈیٹا سائنس، گو-ٹو-مارکیٹ، فنانس اور ریسرچ کی ٹیمیں اعلٰی اثر والے ڈیٹا سوالات کے جوابات کے لیے ایجنٹ پر انحصار کرتی ہیں. مثال کے طور پر، یہ اس بات کا جواب دینے میں مدد کر سکتا ہے کہ لانچز کا جائزہ کیسے لیا جائے اور کاروبار کی صحت کو کیسے سمجھا جائے اور یہ سب کچھ قدرتی زبان کے بدیہی فارمیٹ کے ذریعے. ایجنٹ Codex سے تقویت یافتہ ٹیبل سطح کے علم کو پروڈکٹ اور تنظیمی سیاق و سباق کے ساتھ یکجا کرتا ہے. اس کا مسلسل سیکھنے والا یادداشت کا نظام یہ بھی ظاہر کرتا ہے کہ یہ ہر موڑ کے ساتھ بہتر ہوتا جاتا ہے.

اسکرین شاٹ جس میں ایک صارف 6 اکتوبر، 2025 کو DevDay 2023 کے مقابلے میں ChatGPT WAU کے بارے میں پوچھ رہا ہے. ایجنٹ 2025 کے لیے ≈800M WAU اور 2023 کے لیے ≈100M کی رپورٹ کرتا ہے، نوٹس میں +700M کی تبدیلی اور ~8× اضافہ دکھایا گیا ہے، جس کے بعد وضاحتی سیاق و سباق فراہم کیا گیا ہے.

اس پوسٹ میں، ہم یہ واضح کریں گے کہ ہمیں ایک مخصوص AI ڈیٹا ایجنٹ کی ضرورت کیوں پیش آئی، اس کے کوڈ سے بھرپور ڈیٹا کے سیاق و سباق اور خود سیکھنے کی صلاحیت اسے اتنا مفید کیوں بناتی ہیں اور راستے میں ہم نے کیا اسباق سیکھے.

ہمیں ایک حسب ضرورت ٹول کی ضرورت کیوں تھی؟

OpenAI کا ڈیٹا پلیٹ فارم 3.5 ہزار اندرونی صارفین کو خدمات فراہم کرتا ہے جو انجینئرنگ، پروڈکٹ اور ریسرچ میں کام کرتے ہیں اور 70 ہزار ڈیٹاسیٹس میں 600 پیٹا بائٹس سے زیادہ ڈیٹا پر محیط ہے. اس سائز پر، صحیح ٹیبل تلاش کرنا تجزیہ کرنے کے سب سے زیادہ وقت طلب حصوں میں سے ایک ہو سکتا ہے.

جیسا کہ ایک داخلی صارف نے کہا:

"ہمارے پاس بہت سی میزیں ہیں جو کافی حد تک ملتی جلتی ہیں اور میں یہ سمجھنے میں بہت زیادہ وقت صرف کرتا ہوں کہ وہ کس طرح مختلف ہیں اور کون سی استعمال کرنی چاہیے. کچھ میں لاگ آؤٹ صارفین شامل ہیں، کچھ میں نہیں. "کچھ فیلڈز ایک دوسرے پر اوورلیپ کرتی ہیں؛ یہ سمجھنا مشکل ہوتا ہے کہ کون سا کیا ہے."

صحیح ٹیبلز کے انتخاب کے باوجود، درست نتائج پیدا کرنا چیلنجنگ ہو سکتا ہے. تجزیہ کاروں کو ٹیبل ڈیٹا اور ٹیبل کے تعلقات کے بارے میں غور و فکر کرنا چاہیے تاکہ یہ یقینی بنایا جا سکے کہ تبدیلیاں اور فلٹرز صحیح طور پر لاگو کیے گئے ہیں. عام ناکامی کے موڈز—کئی سے کئی جوائنز، فلٹر پش ڈاون کی خرابیاں، اور غیر ہینڈل شدہ نلز—خاموشی سے نتائج کو غلط ثابت کر سکتے ہیں. OpenAI کے پیمانے پر، تجزیہ کاروں کو SQL سیمنٹکس یا کوئری کی کارکردگی کی ڈیبگنگ میں وقت ضائع نہیں کرنا چاہیے: ان کی توجہ میٹرکس کی تعریف، مفروضات کی توثیق اور ڈیٹا پر مبنی فیصلے کرنے پر ہونی چاہیے.

SQL کوڈ کے اسکرین شاٹ میں دو CTEs—order_enriched اور monthly_segment—کی وضاحت کی گئی ہے جو کسٹمر جغرافیہ کے ڈیٹا کو جوڑتے ہیں، آرڈر-ماہ کے فیلڈز اخذ کرتے ہیں اور ماہانہ مجموعی نتائج کا حساب لگاتے ہیں جیسے آرڈر کی تعداد، مجموعی آمدنی، ٹیکس کے ساتھ آمدنی اور شپ-ٹو-ریسیپٹ کے اوسط دن. — یہ SQL بیان 180+ لائنوں پر مشتمل ہے. یہ جاننا آسان نہیں ہے کہ آیا ہم صحیح ٹیبلز کو جوڑ رہے ہیں اور صحیح کالمز کو کوئری کر رہے ہیں.

یہ کیسے کام کرتا ہے

آئیے یہ جانتے ہیں کہ ہمارا ایجنٹ کیا ہے، یہ سیاق و سباق کو کیسے ترتیب دیتا ہے اور یہ خود کو کیسے مسلسل بہتر بناتا رہتا ہے.

ہمارا ایجنٹ GPT‑5.2 سے تقویت یافتہ ہے اور OpenAI کے ڈیٹا پلیٹ فارم پر استدلال کرنے کے لیے تیار کیا گیا ہے. یہ وہاں دستیاب ہے جہاں ملازمین پہلے ہی کام کرتے ہیں: ایک Slack ایجنٹ کے طور پر، ایک ویب انٹرفیس کے ذریعے، IDEs کے اندر، Codex CLI via MCP⁠(نئی ونڈو میں کھلتا ہے) اور براہِ راست OpenAI کی اندرونی ChatGPT ایپ کے ذریعے MCP کنیکٹر⁠(نئی ونڈو میں کھلتا ہے).

"ڈیٹا ایجنٹ کیسے کام کرتا ہے" کے عنوان سے ایک ڈایاگرام. انٹری پوائنٹس—ایجنٹ-UI، لوکل ایجنٹ-MCP، ریموٹ ایجنٹ-MCP اور Slack ایجنٹ—ایجنٹ-API میں شامل ہوتے ہیں. API اندرونی ڈیٹا نالج اور کمپنی کے سیاق و سباق سے جڑتا ہے، ڈیٹا ویئرہاؤس اور پلیٹ فارم ذرائع کے ساتھ ہم آہنگ ہوتا ہے اور GPT-5.2 کے ساتھ درخواستوں کا تبادلہ کرتا ہے. ماڈل ایجنٹ-MCP کے ذریعے.

صارفین پیچیدہ، کھلے سوالات پوچھ سکتے ہیں جن کے لیے عموماً دستی طور پر دریافت کے کئی مراحل درکار ہوتے ہیں. اس مثال کی پرامپٹ کو دیکھیں، جو ایک ٹیسٹ ڈیٹا سیٹ استعمال کرتا ہے: "NYC ٹیکسی سفروں کے لیے، کون سے پک اپ سے ڈراپ آف ZIP جوڑے سب سے زیادہ غیر قابلِ بھروسا ہیں، جن میں عام اور بدترین صورتِ حال کے سفری اوقات کے درمیان سب سے بڑا فرق ہے اور یہ تغیر کب ہوتا ہے؟"

ایجنٹ تجزیے کو اختتام سے اختتام تک سنبھالتا ہے، سوال کو سمجھنے سے لے کر ڈیٹا کو دریافت کرنے، کوئریز چلانے اور نتائج کی ترکیب سازی کرنے تک.

اسکرین شاٹ میں دکھایا گیا ہے کہ ایک صارف پوچھ رہا ہے کہ NYC ٹیکسی پک اپ → ڈراپ آف زپ جوڑوں میں سے کون سے سب سے زیادہ "غیر قابلِ بھروسہ" ہیں. ایجنٹ samples.nyctaxi.trips سے ~21k سفر استعمال کرتے ہوئے وضاحت کرتا ہے، عام (p50) بمقابلہ بدترین صورتِ حال (p95) کی تعریف کرتا ہے، فلٹرز لاگو کرتا ہے اور بیان کرتا ہے کہ یہ کیسے شناخت کرتا ہے کہ ہر ZIP جوڑی کا سب سے طویل سفر کب ہوا. — سوال کے جواب میں ایجنٹ کا ردِعمل.

ایجنٹ کی سپر پاورز میں سے ایک یہ ہے کہ وہ مسائل سے کیسے استدلال کرتا ہے. ایک مقررہ اسکرپٹ کو فالو کرنے کے بجائے، ایجنٹ اپنی پیشرفت کا از خود جائزہ لیتا ہے. اگر کوئی درمیانی نتیجہ غلط نظر آئے (مثلاً، اگر غلط جوائن یا فلٹر کی وجہ سے اس میں صفر قطاریں ہوں)، تو ایجنٹ یہ جانچ کرتا ہے کہ کیا غلط ہوا، اپنے طریقہ کار کو ایڈجسٹ کرتا ہے اور دوبارہ کوشش کرتا ہے. اس پورے عمل کے دوران، یہ مکمل سیاق و سباق کو برقرار رکھتا ہے اور مراحل کے درمیان سیکھے گئے اسباق کو آگے بڑھاتا ہے. یہ بند-حلقہ، خود سیکھنے والا عمل تکرار کو صارف سے ہٹا کر خود ایجنٹ میں منتقل کرتا ہے، جس سے دستی ورک فلو کے مقابلے میں تیز تر نتائج اور مستقل طور پر زیادہ اعلٰی معیار کے تجزیے ممکن ہوتے ہیں.

ایک ٹاسک ورک فلو کا اسکرین شاٹ جو NYC ٹیکسی ٹرپ کی مدتوں کا تجزیہ کرنے کے لیے ایک AI ایجنٹ کا مرحلہ وار پلان دکھاتا ہے. اس میں اہداف، اندرونی تلاشیں، اسکیما معائنہ، کوڈ کے ٹکڑے اور p50/p95 اسپریڈز کی کمپیوٹنگ کے بارے میں استدلال، غیر معتبر ZIP جوڑوں کی نشاندہی اور SQL کوئریز کی منصوبہ بندی شامل ہیں. — ایجنٹ کی استدلال سب سے زیادہ غیر قابل اعتماد NYC ٹیکسی پک اپ–ڈراپ آف جوڑوں کی شناخت کے لیے.

ایجنٹ مکمل تجزیاتی ورک فلو کا احاطہ کرتا ہے: ڈیٹا کی دریافت، SQL کا نفاذ اور نوٹ بکس اور رپورٹس کی اشاعت. یہ اندرونی کمپنی کے علم کو سمجھتا ہے، بیرونی معلومات کے لیے ویب پر تلاش کر سکتا ہے اور سیکھے گئے استعمال اور یادداشت کے ذریعے وقت کے ساتھ بہتر ہوتا جاتا ہے.

سیاق سب کچھ ہے

اعلٰی معیار کے جوابات بھرپور، درست سیاق و سباق پر منحصر ہوتے ہیں. سیاق و سباق کے بغیر، حتیٰ کہ مضبوط ماڈلز بھی غلط نتائج پیدا کر سکتے ہیں، جیسے کہ صارف کی تعداد کا بہت زیادہ غلط اندازہ لگانا یا اندرونی اصطلاحات کی غلط تشریح کرنا.

ایک صارف کا اسکرین شاٹ پوچھ رہا ہے، "گزشتہ 30 دنوں سے ChatGPT امیج جنرل لاگ ان DAU کیا تھا؟" ذیل میں اسٹیٹس لائن کے ساتھ یہ ظاہر ہوتا ہے کہ ایجنٹ "22m 41s کے لیے کام کر رہا ہے"، جو ایک طویل عرصے سے جاری استفسار کی نشاندہی کرتا ہے.

یادداشت کے بغیر ایجنٹ، مؤثر طریقے سے سوال کرنے سے قاصر.

اسکرین شاٹ جس میں ایک صارف پوچھ رہا ہے، "گزشتہ 30 دنوں سے ChatGPT امیج جنرل لاگ ان DAU کیا تھا؟" پیغام کے نیچے، ایک اسٹیٹس لائن کہتی ہے کہ "1m 22s کے لیے کام کیا گیا،" یہ بتاتا ہے کہ کوئری ابھی بھی چل رہی ہے اور اسے مکمل ہونے میں کافی وقت لگ رہا ہے.

ایجنٹ کی میموری درست ٹیبلز کو تلاش کر کے تیز تر کوئریز کو ممکن بناتی ہے.

ان ناکامی کے طریقوں سے بچنے کے لیے، ایجنٹ کو سیاق و سباق کی متعدد تہوں کے گرد بنایا گیا ہے جو اسے OpenAI کے ڈیٹا اور ادارہ جاتی علم میں مضبوطی سے جڑتا ہے.

"ڈیٹا ایجنٹ کی سیاق و سباق کی پرتیں" کے عنوان سے خاکہ چھ اسٹیک شدہ درجات دکھا رہا ہے: 1) ٹیبل کا استعمال، 2) انسانی تشریحات، 3) Codex افزودگی، 4) ادارہ جاتی علم، 5) میموری اور 6) رن ٹائم سیاق و سباق. ہر پرت اہرام کی شکل میں افقی بار کے طور پر ظاہر ہوتی ہے.

لیئر #1: جدول کا استعمال

میٹا ڈیٹا گراؤنڈنگ: ایجنٹ SQL لکھنے کے لیے اسکیما میٹا ڈیٹا (کالم کے نام اور ڈیٹا کی اقسام) پر انحصار کرتا ہے اور مختلف ٹیبلز کے باہمی تعلقات کے بارے میں سیاق و سباق فراہم کرنے کے لیے ٹیبل لینیج (مثلاً اپ اسٹریم اور ڈاؤن اسٹریم ٹیبل تعلقات) استعمال کرتا ہے.
کوئری اِنفرنس: تاریخی کوئریز کو شامل کرنے سے ایجنٹ کو یہ سمجھنے میں مدد ملتی ہے کہ وہ اپنی کوئریز کیسے لکھے اور کون سی ٹیبلز عموماً ایک ساتھ جوڑی جاتی ہیں.

لیئر #2: انسانی تشریحات

منتخب کردہ وضاحتیں جو ڈومین ماہرین کی جانب سے ٹیبلز اور کالمز کے لیے فراہم کی جاتی ہیں، ارادے، معنویت، کاروباری معنی اور معلوم احتیاطی نکات کو سمیٹتی ہیں جو اسکیما یا پچھلی کوئریز سے آسانی سے اخذ نہیں کیے جا سکتے.

صرف میٹا ڈیٹا کافی نہیں ہے. واقعی ٹیبلز میں فرق کرنے کے لیے، آپ کو یہ سمجھنا ہوگا کہ وہ کیسے بنائے گئے ہیں اور ان کی اصل کہاں سے ہے.

لیئر #3: Codex کی افزودگی

کسی جدول کی کوڈ-سطح کی تعریف اخذ کرنے سے، ایجنٹ ڈیٹا کے حقیقی مواد کی زیادہ گہری تفہیم پیدا کرتا ہے.
- ٹیبل میں محفوظ کردہ مواد کی باریکیاں اور یہ کہ یہ اینالیٹکس ایونٹ سے کیسے اخذ کیا گیا ہے، اضافی معلومات فراہم کرتی ہیں. مثال کے طور پر، یہ قدروں کی انفرادیت، جدول کے ڈیٹا کو کتنی بار اپ ڈیٹ کیا جاتا ہے، ڈیٹا کے دائرہ کار (مثلاً، اگر جدول بعض فیلڈز کو خارج کرتا ہے، تو اس میں اتنی سطح کی تفصیل ہے)، وغیرہ کے بارے میں سیاق و سباق فراہم کر سکتا ہے.
یہ SQL کے علاوہ Spark، Python اور دیگر ڈیٹا سسٹمز میں ٹیبل کے استعمال کو دکھا کر استعمال کے سیاق و سباق کو مزید بہتر بناتا ہے.
اس کا مطلب یہ ہے کہ ایجنٹ ان ٹیبلز کے درمیان فرق کر سکتا ہے جو بظاہر ملتے جلتے ہیں لیکن اہم پہلوؤں میں مختلف ہیں. مثال کے طور پر، یہ بتا سکتا ہے کہ آیا کوئی جدول صرف فرسٹ پارٹی ChatGPT ٹریفک شامل کرتا ہے. یہ سیاق و سباق بھی خود بخود تازہ ہوتا رہتا ہے، اس لیے یہ بغیر کسی دستی دیکھ بھال کے تازہ ترین رہتا ہے.

"Codex سے افزودہ علم کی پائپ لائن" کے عنوان والا خاکہ. مقبول ٹیبلز متعدد Codex ٹاسکس میں شامل ہوتے ہیں، جو OpenAI کوڈبیس سے تفصیلات اخذ کرتے ہیں، جن میں ٹیبل کا مقصد، گرین اور پرائمری کیز، ڈاونسٹریم استعمال کے پیٹرنز، متبادل ٹیبل کے اختیارات اور ڈیٹا کی تازگی شامل ہیں.

لیئر #4: ادارہ جاتی علم

ایجنٹ Slack، Google Docs اور Notion تک رسائی حاصل کر سکتا ہے، جو کمپنی کے اہم سیاق و سباق کو محفوظ کرتے ہیں جیسے لانچز، قابلِ اعتمادیت کے واقعات، اندرونی کوڈ نیمز اور ٹولز اور کلیدی میٹرکس کے لیے معیاری تعریفیں اور حسابی منطق.
یہ دستاویزات انضمام، سرایت اور میٹا ڈیٹا اور اجازتوں کے ساتھ محفوظ کی جاتی ہیں. ایک بازیافت سروس رن ٹائم کے دوران رسائی کنٹرول اور کیشنگ کو سنبھالتی ہے، جس سے ایجنٹ اس معلومات کو مؤثر اور محفوظ طریقے سے حاصل کر سکتا ہے.

دسمبر میں کنیکٹر کے استعمال میں کمی کی وجہ پوچھتے ہوئے ایک صارف کا اسکرین شاٹ. ایجنٹ وضاحت کرتا ہے کہ کمی کی وجہ 13 نومبر، 2025 سے شروع ہونے والا لاگنگ مسئلہ تھا، جس کی وجہ سے ChatGPT 5.1 کے لانچ کے بعد استعمال کم شمار ہوا. پرانا ٹیلی میٹری خالی ہو گیا تھا، جب تک کہ ایک نیا واقعہ حقیقت کا ذریعہ نہ بن گیا.

لیئر #5: میموری

جب ایجنٹ کو اصلاحات دی جاتی ہیں یا وہ بعض ڈیٹا سوالات کے بارے میں باریکیوں کو دریافت کرتا ہے، تو یہ اگلی بار کے لیے ان سیکھوں کو محفوظ کر سکتا ہے، جس سے یہ اپنے صارفین کے ساتھ مسلسل بہتر ہوتا رہتا ہے.
- نتیجتاً، مستقبل کے جوابات بار بار انہی مسائل کا سامنا کرنے کے بجائے زیادہ درست بنیاد سے شروع ہوتے ہیں.
- میموری کا مقصد غیر واضح اصلاحات، فلٹرز اور پابندیوں کو محفوظ رکھنا اور دوبارہ استعمال کرنا ہے جو ڈیٹا کی درستگی کے لیے نہایت اہم ہیں لیکن دیگر لیئرز سے ان کا اندازہ لگانا مشکل ہوتا ہے.
- مثال کے طور پر، ایک معاملے میں، ایجنٹ کو یہ معلوم نہیں تھا کہ کسی خاص تجزیاتی تجربے کے لیے کیسے فلٹر کیا جائے (یہ ایک تجرباتی گیٹ میں متعین ایک خاص سٹرنگ کے ساتھ میچ کرنے پر انحصار کرتا تھا). یہاں میموری انتہائی اہم تھی تاکہ یہ درست طریقے سے فلٹر کر سکے، بجائے اس کے کہ مبہم طور پر سٹرنگ میچ کرنے کی کوشش کرے.
جب آپ ایجنٹ کی کوئی تصحیح کرتے ہیں یا جب یہ آپ کی گفتگو سے کچھ سیکھتا ہے، تو یہ آپ کو اگلی بار کے لیے اس یادداشت کو محفوظ کرنے کے لیے پرومپٹ کرے گا.
- میموریز صارفین کے ذریعے دستی طور پر بھی تخلیق اور ترمیم کی جا سکتی ہیں.
- میموریز عالمی اور ذاتی سطح پر محدود ہوتی ہیں اور ایجنٹ کے ٹول ان کی ترمیم کو آسان بناتے ہیں.

نوٹیفکیشن بینر جس میں دکھایا گیا ہے کہ "ڈیٹا ایجنٹ 2 سیکھنے کو میموری میں محفوظ کرنا چاہتا ہے"، ایک لیبل والی آئٹم "ChatGPT ٹاپ لیول میٹرکس" کے ساتھ اور دائیں طرف ایک تصدیقی پیغام جس پر سبز چیک مارک کے ساتھ "عالمی میموری میں محفوظ" لکھا ہوا ہے.

سطح #6: رن ٹائم سیاق و سباق

جب کسی جدول کے لیے کوئی سابقہ سیاق و سباق موجود نہ ہو یا موجودہ معلومات پرانی ہو چکی ہوں، تو ایجنٹ ڈیٹا ویئرہاؤس کو براہ راست جدول کا معائنہ کرنے اور کوئری کرنے کے لیے لائیو کوئریز جاری کر سکتا ہے. یہ اسے اسکیما کی توثیق کرنے، حقیقی وقت میں ڈیٹا کو سمجھنے اور اسی کے مطابق جواب دینے کی اجازت دیتا ہے.
ایجنٹ دوسرے ڈیٹا پلیٹ فارم سسٹمز (میٹا ڈیٹا سروس، Airflow، Spark) سے بھی بات کرنے کے قابل ہے تاکہ گودام کے باہر موجود وسیع ڈیٹا سیاق و سباق کو حاصل کیا جا سکے.

We run a daily offline pipeline that aggregates table usage, human annotations, and Codex-derived enrichment into a single, normalized representation. This enriched context is then converted into embeddings using the OpenAI embeddings API⁠(نئی ونڈو میں کھلتا ہے) and stored for retrieval. At query time, the agent pulls only the most relevant embedded context via retrieval-augmented generation⁠(نئی ونڈو میں کھلتا ہے) (RAG) instead of scanning raw metadata or logs. This makes table understanding fast and scalable, even across tens of thousands of tables, while keeping runtime latency predictable and low. Runtime queries are issued to our data warehouse live as needed.

"ڈیٹا ایجنٹ میں سیاق و سباق کی بازیافت" کے عنوان والا خاکہ. آف لائن پری پروسیسنگ پرتیں—ٹیبل کے استعمال، انسانی تشریحات، Codex افزودگی، ادارہ جاتی علم اور میموری—RAG ایمبیڈنگز میں شامل ہوتی ہیں. لائیو بازیافت سے پتہ چلتا ہے کہ رن ٹائم سیاق و سباق پیدا کرنے کے لیے ایجنٹ کو سیمنٹک سرچ کے ذریعے ڈیٹا بیس سے استفسار کیا جاتا ہے.

Together, these layers ensure the agent’s reasoning is grounded in OpenAI’s data, code, and institutional knowledge, dramatically reducing errors and improving answer quality.

Built to think and work like a teammate

One-shot answers work when the problem is clear, but most questions aren’t. More often, arriving at the correct result requires back-and-forth refinement and some course correction.

The agent is built to behave like a teammate you can reason with. It’s a conversational, always-on and handles both quick answers and iterative exploration.

It carries over complete context across turns, so users can ask follow-up questions, adjust their intent, or change direction without restating everything. If the agent starts heading down the wrong path, users can interrupt mid-analysis and redirect it, just like working with a human collaborator who listens instead of plowing ahead.

When instructions are unclear or incomplete, the agent proactively asks clarifying questions. If no response is provided, it applies sensible defaults to make progress. For example, if a user asks about business growth with no date range specified, it may assume the last seven or 30 days. These priors allow it to stay responsive and non-blocking while still converging on the right outcome.

The result is an agent that works well both when you know exactly what you want (e.g., “Tell me about this table”) and just as strong when you’re exploring (e.g., “I’m seeing a dip here, can we break this down by customer type and timeframe?”).

After rollout, we observed that users frequently ran the same analyses for routine repetitive work. To expedite this, the agent's workflows package recurring analyses into reusable instruction sets. Examples include workflows for weekly business reports and table validations. By encoding context and best practices once, workflows streamline repeat analyses and ensure consistent results across users.

UI ان پٹ بار جس میں پلیس ہولڈر متن "ڈیٹا کا سوال پوچھیں." موجود ہے. اس کے نیچے "ورک فلو استعمال کریں" کے لیبل والا ایک بٹن ہے اور دائیں طرف مائیکروفون اور بھیجنے کے آئیکنز ہیں. بار کے کونے گول ہیں اور یہ تاریک پس منظر کے ساتھ ہے.

Moving fast without breaking trust

Building an always-on, evolving agent means quality can drift just as easily as it can improve. Without a tight feedback loop, regressions are inevitable and invisible. The only way to scale capability without breaking trust is through systematic evaluation.

In this section, we’ll discuss how we leverage OpenAI’s Evals API⁠(نئی ونڈو میں کھلتا ہے) to measure and protect the agent’s response quality.

Its Evals are built on curated sets of question-answer pairs. Each question targets an important metric or analytical pattern we care deeply about getting right, paired with a manually authored “golden” SQL query that produces the expected result. For each eval, we send the natural language question to its query-generation endpoint, execute the generated SQL, and compare the output against the result of the expected SQL.

"ڈیٹا ایجنٹ کی ایویلیوایشن پائپ لائن" کے عنوان والی ڈایاگرام. Q&A ایوال جوڑیاں متوقع SQL کے ساتھ ایک جنریشن مرحلے میں شامل ہوتی ہیں جو SQL اور نتائج پیدا کرتا ہے. OpenAI Evals ڈیٹا فریم اور SQL موازنہ کا استعمال کرتے ہوئے تیار کردہ اور متوقع نتائج کا موازنہ کرتا ہے اور ایک اسکور اور استدلال فراہم کرتا ہے.

Evaluation doesn’t rely on naive string matching. Generated SQL can differ syntactically while still being correct, and result sets may include extra columns that don’t materially affect the answer. To account for this, we compare both the SQL and the resulting data, and feed these signals into OpenAI’s Evals grader. The grader produces a final score along with an explanation, capturing both correctness and acceptable variation.

These evals are like unit tests that run continuously during development to identify regressions as canaries in production; this allows us to catch issues early and confidently iterate as the agent's capabilities expand.

Agent security

Our agent plugs directly into OpenAI’s existing security and access-control model. It operates purely as an interface layer, inheriting and enforcing the same permissions and guardrails that govern OpenAI’s data.

All of the agent’s access is strictly pass-through, meaning users can only query tables they already have permission to access. When access is missing, it flags this or falls back to alternative datasets the user is authorized to use.

Finally, it's built for transparency. Like any system, it can make mistakes. It exposes its reasoning process by summarizing assumptions and execution steps alongside each answer. When queries are executed, it links directly to the underlying results, allowing users to inspect raw data and verify every step of the analysis.

Lessons learned

Building our agent from scratch surfaced practical lessons about how agents behave, where they struggle, and what actually makes them reliable at scale.

Lesson #1: Less is More

Early on, we exposed our full tool set to the agent, and quickly ran into problems with overlapping functionality. While this redundancy can be helpful for specific custom cases and is more obvious to a human when manually invoking, it’s confusing to agents. To reduce ambiguity and improve reliability, we restricted and consolidated certain tool calls.

Lesson #2: Guide the Goal, Not the Path

We also discovered that highly prescriptive prompting degraded results. While many questions share a general analytical shape, the details vary enough that rigid instructions often pushed the agent down incorrect paths. By shifting to higher-level guidance and relying on GPT‑5’s reasoning to choose the appropriate execution path, the agent became more robust and produced better results.

Lesson #3: Meaning Lives in Code

Schemas and query history describe a table’s shape and usage, but its true meaning lives in the code that produces it. Pipeline logic captures assumptions, freshness guarantees, and business intent that never surface in SQL or metadata. By crawling the codebase with Codex, our agent understands how datasets are actually constructed and is able to better reason about what each table actually contains. It can answer “what’s in here” and “when can I use it” far more accurately than from warehouse signals alone.

Same vision, new tools

We’re constantly working to improve our agent by increasing its ability to handle ambiguous questions, improving its reliability and accuracy with stronger validations, and integrating it more deeply into workflows. We believe it should blend naturally into how people already work, instead of functioning like a separate tool.

While our tooling will keep benefiting from underlying improvements in agent reasoning, validation, and self-correction, our team’s mission remains the same: seamlessly deliver fast, trustworthy data analysis across OpenAI’s data ecosystem.