ChatGPT又又又更新啦！这次是支持语音聊天和图像问答

夕小瑶科技说原创
编译 | 谢年年

OpenAI于25日宣布将在ChatGPT中推出新的语音和图像功能。他们提供了一种新的、更直观的界面，可以语音对话或向ChatGPT展示需要讨论的内容。

这意味着用户不仅可以通过键盘输入文字，还可以通过语音输入或图像展示与ChatGPT进行交流。这为用户提供了更多的选择和便利，使得与ChatGPT的交互更加多样化和灵活。

无论你是喜欢打字还是更喜欢说话，或者希望通过图像来表达，ChatGPT都可以满足需求。这些新功能将进一步提升ChatGPT的用户体验，使与它的交流更加自然和流畅。

您可以利用语音和图像的功能来更多地使用ChatGPT。比如，当旅行时，可以拍下一张地标的照片，并与ChatGPT进行实时对话，了解该地标的有趣之处。

在家中，可以拍下冰箱和餐具室的照片，然后向ChatGPT询问晚餐应该吃什么，并根据ChatGPT的回答提出后续问题，以获取一步一步的食谱。

此外，还用来辅导孩子作业，拍下题集的照片，并用圈圈标出题目，然后与ChatGPT一起解决问题。

OpenAI表示，Plus 和 Enterprise 用户将在未来两周内可以体验到语音和图像新功能,不久后也将向包括开发人员在内的其他用户群推出这些功能。

与ChatGPT语音对话

现在可以使用语音与ChatGPT进行来回对话。比如我们可以让它讲一个睡前故事，同时支持向chatgpt发起多轮语音对话。

原文：

Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.
“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”
Milo’s ears perked up, curious. “A new playmate?”
Lila purred, “Yes, a baby sister.”
Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”
Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”
Milo nodded eagerly, already dreaming of the adventures they’d share.

（原文大意）曾经，在一片宁静的林地里，有一只名叫Lila的毛茸茸的猫妈妈。那天，阳光明媚，她和顽皮的小猫米洛在一棵老橡树的树荫下拥抱在一起。
“米洛，”莉拉开始说话，声音轻柔，“你很快就会有一个新的玩伴了。”
米洛好奇地竖起耳朵。“一个新的玩伴？”
莉拉咕噜地说：“是的，一个小妹妹。”
米洛激动得睁大了眼睛。“妹妹？她会像我一样追尾巴吗？”
莉拉笑了。“哦，她会有自己的怪癖。你会教她的，不是吗？”
米洛急切地点了点头，已经梦想着他们会一起冒险。

chatgpt还支持五种声线切换，听上去很自然。

如何开启语音功能？

要开始使用语音功能，请按照以下步骤进行设置：

打开移动应用程序，并找到“设置”选项。
在设置菜单中，找到并点击“新功能”选项。
在新功能菜单中，找到并选择“语音对话”选项。
返回主屏幕后，您会看到右上角有一个耳机按钮。请点击该按钮。
在弹出的声音选择菜单中，您可以从五种不同的声音中选择您喜欢的声音。

通过以上步骤，您就可以开始使用语音功能了！

新的语音功能是由一种新的文本到语音模型支持的。这个模型能够仅从文本和几秒钟的语音样本中生成类似人类的音频。Open AI与专业配音演员合作，创造了每一种声音。同时，还使用了Whisper，一个开源的语音识别系统，将用户的口语转录成文本。

支持图像聊天

现在可以向ChatGPT展示一个或多个图像，并发起询问。

ChatGPT可以帮助用户解决问题，比如拍一张自行车的照片，请求chatgpt给出降低座位高度的方案；或是发一张冰箱里的食物并让chatgpt计划用餐，或者分析复杂的图表以获取与工作相关的数据。如果您想要关注图像的特定部分，还可以使用移动应用程序中的绘图工具。

如何开始使用？

若要开始，请点击照片按钮以拍摄或选择图像。如果您使用的是iOS或Android，请先点击加号按钮。您也可以讨论多个图像或使用我们的绘图工具来指导。

图像理解是指通过计算机算法和模型来理解和解释图像中的内容和语义。GPT-3.5和GPT-4是两个提供支持的多模态模型。

这些模型具备强大的语言推理技能，可以应用于各种类型的图像，包括照片、屏幕截图以及包含文本和图像的文档。它们能够分析图像中的信息，并通过自然语言生成对图像的描述或回答相关问题。

通过使用这些模型，我们可以更好地理解图像中的内容，从而实现更广泛的应用，如图像搜索、自动图像标注、图像问答等。这些技术的发展为我们提供了更多的可能性，使得计算机能够更好地理解和处理图像数据。

OpenAI正在逐步部署图像和语音功能

OpenAI 的目标是构建安全、有益的 AGI。OpenAI相信，逐步提供工具，随着时间的推移不断改进和完善风险缓解措施，同时也让大家为未来更强大的系统做好准备。在涉及语音和视觉的高级模型中，这一策略变得更加重要。

语音

这项新的语音技术只需要几秒钟的真实语音，就能制作出逼真的合成语音，为许多有创意和无障碍的应用打开了大门。

然而，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。

因此，OpenAI需要加强对这项技术的监管和防范措施，以确保其正常和安全的使用。只有在保证合成语音的真实性和可信度的前提下，这项技术才能真正为人们带来便利和创新。

这项技术是OpenAI与配音演员合作创建的。除此之外，他们还与其他人以类似的方式合作。例如，Spotify正在试点使用这项技术进行语音翻译功能。他们通过将播客翻译成用户自己的声音中的其他语言，帮助播客用户扩大讲故事的范围。

图像输入

基于视觉的模型带来了新的挑战。不仅要考虑对人的幻觉的影响，还要在高风险领域依赖模型对图像进行解释。

在进行更广泛的部署之前，OpenA与极端主义和科学能力等领域的红队测试专家人以及不同的测试者一起对模型进行了测试。OpenAI的研究使OpenAi能够在一些关键细节上保持一致，以实现负责任的应用。

使视觉既有用又安全

与 ChatGPT 的其他功能一样，视觉功能宗旨是为用户的日常生活提供帮助。只有当它能看到用户所看到的东西时，才能发挥最大作用。

OpenAI与面向盲人和低视力者的免费手机应用程序Be My Eyes合作，这款应用程序旨在帮助盲人或低视力者了解事物的用途和局限性。

用户告诉我们，他们发现进行一般性的关于包含背景人物的图像的对话非常有价值，比如当你试图调整遥控器设置时，如果电视上出现了某个人。

OpenAI还采取了技术措施，显著限制了ChatGPT分析和直接对人类进行陈述的能力，因为ChatGPT并非始终准确，而且这些系统应该尊重个人的隐私。

真实世界的使用和反馈将帮助进一步改进这些保护措施，同时保持工具的实用性。

模型限制的透明度

ChatGPT是一个强大的语言模型，用户可以使用它来获取各种专业主题的信息。然而，我们需要明确模型的局限性，并在一些高风险的用例中进行适当的验证。

比如，ChatGPT在处理非英语文本时可能表现不佳，特别是对于使用非罗马体的语言。这意味着对于非英语用户来说，使用ChatGPT可能不是一个理想的选择。

此外，OpenAI强调模型的透明性，会告知用户模型的局限性在哪里。他们会阻止一些高风险的用例，以确保用户的安全和准确性。因此，在没有适当验证的情况下，OpenAI可能会限制某些用例的使用。

参考资料

[1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak