AI大利好来了

2023-09-27 01:30

OpenAI：将在ChatGPT推出新的语音和图像功能

　　OpenAI宣布，将在ChatGPT推出新的语音和图像功能，新功能将于未来两周内面向Plus和企业用户推出。据介绍，新功能允许用户进行语音对话或向ChatGPT展示其正在谈论的内容。语音功能将在iOS和Android平台推出，图像功能将覆盖所有平台。

　　语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。

　　OpenAI 表示，这样的交互方式更加自然和便捷，而且由于 LLM 的技术优势，答案的质量也会更高。OpenAI 还开发了一种新的文本转语音模型，可以根据几秒钟的样本语音，生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音，而且这种模型还有更多的潜在用途。例如，OpenAI正在与Spotify合作，将播客翻译成其他语言，同时保留播客主持人的声音。

　　不过，这种模型也存在一些风险，比如可能被恶意利用来冒充公众人物或进行诈骗。因此，OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。

　　图像输入功能则类似于 Google Lens，用户可以拍摄自己感兴趣的事物，并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。

　　ChatGPT 的优势在于它可以进行多轮对话，而不是一次性搜索。如果用户对答案不满意或想要更多信息，可以继续向 ChatGPT 提问，从而得到更准确和全面的答案。当然，图像搜索也有一些潜在问题。例如，在处理人物图片时，OpenAI 表示他们限制了 ChatGPT 对人物进行分析和直接评价的能力，既为了保证准确性，也为了保护隐私，这意味着上传一个人的照片就能知道他 / 她是谁还无法实现。

　　OpenAI还放出了一段视频，是和ChatGPT商量着修自行车，不断问 ChatGPT：这里是扳手吗？是调整这里吗？甚至还把说明书拍照发给ChatGPT求解释。

　　证券分析师分析称，Chatgpt即将开放图生文及语音对话功能，AI技术持续迭代再翻新一页

　　根据OpenAI官网信息，ChatGPT即将在两周内对plus用户与企业用户开放一系列新功能，包括图像读取与理解(即图生文)，以及语音对话能力。其中，与Chatgpt语音对话的能力仅对ios及安卓客户端开放，而图生文能力对全平台开放。

　　语音对话能力使得用户可以更直接灵活地与ChatGPT互动，增强客户体验的便捷性。用户可以通过语音直接对Chatgpt对话，而chatgpt也可以直接以语音的方式回复用户，使用一种新的文生语音模型，其中可选的五种声音由chatgpt向配音演员特别定制而来。

　　图生文能力使得chatgpt可以读懂图片，拥有更广阔的应用方向。图像读取理解能力的背后，由gpt3.5或gpt4多模态模型支持。客户可以上传一张或者多张图片给系统，甚至可以用画笔标注重点内容，让系统读取理解，可以用于辅导学生作业、搜索日常食谱等各个方向。图生文能力的推出使得AI技术的应用领域大大拓展，有利于AI在千行百业快速落地。

　　相关标的：

　　1)多模态应用：大华股份（002236）、海康威视（002415）、中科创达（300496）、千方科技（002373）、虹软科技、当虹科技等

　　2)办公应用：金山办公、万兴科技（300624）、福昕软件、科大讯飞（002230）等。

　　3)落地快&估值性价比：大华股份、漫步者、传音控股、海康威视、紫天科技（300280）等。

　　4)算力侧：英伟达、中科曙光（603019）、浪潮信息（000977）、中际旭创（300308）、工业富联（601138）、云赛智联（600602）、神州数码（000034）、拓维信息（002261）、四川长虹（600839）、烽火通信（600498）、海光信息、恒润股份（603985）、新易盛（300502）、恒为科技（603496）、易华录（300212）、阿尔特（300825）、润建股份（002929）、寒武纪、景嘉微（300474）、中贝通信（603220）、创业黑马（300688）等。