OpenAI:将在ChatGPT推出新的语音和图像功能

  OpenAI宣布,将在ChatGPT推出新的语音和图像功能,新功能将于未来两周内面向Plus和企业用户推出。据介绍,新功能允许用户进行语音对话或向ChatGPT展示其正在谈论的内容。语音功能将在iOS和Android平台推出,图像功能将覆盖所有平台。

  语音输入功能类似于手机上的语音助手,用户只需按下一个按钮,说出自己的问题,ChatGPT 就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。

  OpenAI 表示,这样的交互方式更加自然和便捷,而且由于 LLM 的技术优势,答案的质量也会更高。OpenAI 还开发了一种新的文本转语音模型,可以根据几秒钟的样本语音,生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音,而且这种模型还有更多的潜在用途。例如,OpenAI正在与Spotify合作,将播客翻译成其他语言,同时保留播客主持人的声音。

  不过,这种模型也存在一些风险,比如可能被恶意利用来冒充公众人物或进行诈骗。因此,OpenAI 表示,这种模型不会被广泛开放,而是会受到严格的控制和限制。

  图像输入功能则类似于 Google Lens,用户可以拍摄自己感兴趣的事物,并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。

  ChatGPT 的优势在于它可以进行多轮对话,而不是一次性搜索。如果用户对答案不满意或想要更多信息,可以继续向 ChatGPT 提问,从而得到更准确和全面的答案。当然,图像搜索也有一些潜在问题。例如,在处理人物图片时,OpenAI 表示他们限制了 ChatGPT 对人物进行分析和直接评价的能力,既为了保证准确性,也为了保护隐私,这意味着上传一个人的照片就能知道他 / 她是谁还无法实现。

  OpenAI还放出了一段视频,是和ChatGPT商量着修自行车,不断问 ChatGPT:这里是扳手吗?是调整这里吗?甚至还把说明书拍照发给ChatGPT求解释。

  证券分析师分析称,Chatgpt即将开放图生文及语音对话功能,AI技术持续迭代再翻新一页

  根据OpenAI官网信息,ChatGPT即将在两周内对plus用户与企业用户开放一系列新功能,包括图像读取与理解(即图生文),以及语音对话能力。其中,与Chatgpt语音对话的能力仅对ios及安卓客户端开放,而图生文能力对全平台开放。

  语音对话能力使得用户可以更直接灵活地与ChatGPT互动,增强客户体验的便捷性。用户可以通过语音直接对Chatgpt对话,而chatgpt也可以直接以语音的方式回复用户,使用一种新的文生语音模型,其中可选的五种声音由chatgpt向配音演员特别定制而来。

  图生文能力使得chatgpt可以读懂图片,拥有更广阔的应用方向。图像读取理解能力的背后,由gpt3.5或gpt4多模态模型支持。客户可以上传一张或者多张图片给系统,甚至可以用画笔标注重点内容,让系统读取理解,可以用于辅导学生作业、搜索日常食谱等各个方向。图生文能力的推出使得AI技术的应用领域大大拓展,有利于AI在千行百业快速落地。

  相关标的:

  1)多模态应用:大华股份002236)、海康威视002415)、中科创达300496)、千方科技002373)、虹软科技、当虹科技等

  2)办公应用:金山办公、万兴科技300624)、福昕软件、科大讯飞002230)等。

  3)落地快&估值性价比:大华股份漫步者、传音控股、海康威视紫天科技300280)等。

  4)算力侧:英伟达、中科曙光603019)、浪潮信息000977)、中际旭创300308)、工业富联601138)、云赛智联600602)、神州数码000034)、拓维信息002261)、四川长虹600839)、烽火通信600498)、海光信息、恒润股份603985)、新易盛300502)、恒为科技603496)、易华录300212)、阿尔特300825)、润建股份002929)、寒武纪、景嘉微300474)、中贝通信603220)、创业黑马300688)等。

------------------------------------