OpenAI ने लॉन्च किया 'gpt-realtime': अब और भी इंसानों जैसी बात करेगा AI मॉडल
OpenAI का नया AI मॉडल 'gpt-realtime' अब इंसानों जैसी बात करेगा।


tarun@chugal.com
आर्टिफिशियल इंटेलिजेंस (AI) के क्षेत्र में काम करने वाली प्रमुख कंपनी OpenAI ने अपना अब तक का सबसे 'सक्षम' स्पीच-टू-स्पीच AI मॉडल, gpt-realtime, पेश किया है। कंपनी ने गुरुवार, 28 अगस्त 2025 को इस नए मॉडल की घोषणा की। यह नया AI मॉडल पहले से कहीं ज़्यादा स्वाभाविक और प्रभावशाली तरीके से बातचीत कर सकता है, साथ ही यह जटिल निर्देशों को भी बेहतर ढंग से समझने में सक्षम होगा।
क्या है 'gpt-realtime' में खास?
कंपनी के आधिकारिक ब्लॉग के अनुसार, यह नया AI मॉडल सिस्टम संदेशों और डेवलपर के निर्देशों को ज़्यादा अच्छी तरह से समझने में माहिर है। उदाहरण के लिए, यह सपोर्ट कॉल पर किसी चेतावनी स्क्रिप्ट को शब्द-दर-शब्द पढ़ सकता है, अल्फ़ान्यूमेरिक (अंक और अक्षर) दोहरा सकता है, या बातचीत के बीच में ही एक भाषा से दूसरी भाषा में आसानी से स्विच कर सकता है। यह मॉडल एक वाक्य के बीच में भी भाषा या बोलने का तरीका (टोन) बदलने की क्षमता रखता है।
इंसानों जैसी समझ और बहुभाषी क्षमता
'gpt-realtime' की एक और बड़ी खासियत यह है कि यह हंसने जैसी गैर-मौखिक आवाजों (non-verbal cues) को भी पहचान सकता है। इसके अलावा, यह स्पेनिश, चीनी, जापानी और फ्रेंच जैसी विभिन्न भाषाओं में भी संख्याओं का पता लगाने में सक्षम है।
क्यों बनाया गया यह मॉडल?
OpenAI के ब्लॉग में बताया गया है कि इस मॉडल को ग्राहकों के साथ मिलकर विकसित किया गया है। इसका मुख्य उद्देश्य वास्तविक दुनिया के कामों जैसे ग्राहक सहायता (कस्टमर सपोर्ट), व्यक्तिगत सहायता (पर्सनल असिस्टेंस) और शिक्षा के क्षेत्र में बेहतर प्रदर्शन करना है। इसे इस तरह से डिज़ाइन किया गया है जिससे डेवलपर्स आसानी से वॉयस एजेंट बना और तैनात कर सकें।
API पर उपलब्ध, नई आवाजें भी
यह नया मॉडल Realtime API पर उपलब्ध होगा, जिसे अब सभी के लिए सामान्य रूप से जारी कर दिया गया है। OpenAI ने इस API पर 'सेडर' (Cedar) और 'मारिन' (Marin) नाम की दो नई आवाजें भी जोड़ी हैं, जिन्हें डेवलपर्स और यूज़र्स इस्तेमाल कर सकते हैं।