|
OpenAI宣布在 ChatGPT 中实施新的语音和图像功能。这些功能将允许用户直接与 ChatGPT 对话,向其显示图像以获取响应,并进行更详细的对话。Plus 和 Enterprise 计划的用户将能够享受这些功能,这些功能将在未来几周内彻底改变我们与生成式 AI 交互的方式。 同样,这些功能的实现明确关注安全性和可用性,因为OpenAI 认识到人工智能中与语音和图像相关的挑战和潜在风险。 借助 ChatGPT 的语音功能,保持语音对话 就语音而言,OpenAI 决定主要关注语音聊天,这意味着语音对话功能的设计对于用户在请求信息、讲述故事或解决问题等情况下是安全且有用的。 现在,用户将能够向 ChatGPT 询问睡前故事、讨论主题或只是进行对话。这种新的交互水平旨在使体验 更加个性化和易于理解。
要开始使用语音,只需前往移动应用程序中的“设置” ,选择“新功能”,然后选择“语音对话” 。然后,为您的助手选择 5 种可用声音之一。底层技术基于文本转语音模型,该模型可以生成真实地从文本和简短语音样本复制人声的音频。语音功能中使用的声音是与专业配音演员合作创建的。 这项创新也得到了 Whisper的支持,Whisper 是 OpenAI 开发的开源语音识别系统,可将您的口语转录成文本。通过这种语音集成,ChatGPT 为用户提供了更丰富、更自然的体验,让他们能够与 AI 进行对话 电子邮件数据 OpenAI 还与Spotify等外部组织合作应用这种语音技术。提到的一个例子是 Spotify 语音翻译功能的试点,该功能允许播客通过使用播客自己的声音将节目翻译成不同的语言来扩大受众。 新的图像理解能力 ChatGPT 的另一个重要补充是它能够理解和讨论图像。现在,您可以向他展示一张或多张图像,并根据他所看到的内容获得有用的答案。
这有无穷无尽的应用,从解决技术问题到利用冰箱里的食物来计划膳食,或分析复杂的图表以获取与您的工作相关的信息。 例如,在下图中,ChatGPT 分析了用户响应“帮我降低自行车座椅”查询而上传的照片。然后,它会提供有关如何根据照片中的自行车型号获取它的说明,甚至告诉您可以在图像中的何处找到它所引用的零件。 显示 ChatGPT 的新图像理解功能的图片 ChatGPT 中的图像理解基于 多模态 GPT-3.5 和 GPT-4 模型,这些模型将其语言推理能力应用于各种图像,包括照片、屏幕截图以及结合文本和图像的文档。此功能有望使对话更加丰富和实用。 此外,对于这个功能,OpenAI优先考虑了它的实用性和安全性。他们采取了技术措施来限制 ChatGPT 对图像中人物的分析和声明能力,从而尊重用户隐私。
|
|