ChatGPT 可以看懂照片、听懂你说话了：解决「拍一张冰箱里的照片，立即告诉我可以做什么饭」这个问题

经常有同学问：有没有那种拍一张冰箱里有什么食材的照片，就能告诉我可以做什么饭的应用。

以前，青小蛙会回答：酱油炒一切。现在，去问 ChatGPT 吧。

OpenAI 刚刚更新了 Blog：ChatGPT can now see, hear, and speak（ChatGPT 现在可以看、听和说话），将在未来两周内向 Plus 和 Enterprise 用户推出 ChatGPT 语音（手机）与图像（全平台）功能。@Appinn

首先给了几个例子：

语音功能

这个功能有点类似之前的一些第三方服务中通过 Azure API 提供语音识别与朗读功能，即用户语音输入给 ChatGPT，再通过朗读返回给用户。

目前有几种声音，并没有 Azure 那几十种多。

OpenAI 与为盲人和低视力者提供免费帮助的手机应用程序 “Be My Eyes “合作（小众软件介绍过：请做我的眼「实时视频互助」帮助盲人）之后，获得了很多灵感。

图像功能就很赞了，青小蛙也是早上看到了@阑夕在微博发布的中文字幕视频：

视频里，用户向 ChatGPT 提交里一张自行车的照片，询问如何降低自行车座椅，ChatGPT 给出了具体步骤。

用户继续拍照与 ChatGPT 确认步骤里提到的调整部位是否正确，得到回复后，又上传了自行车用户手册和一个真实工具箱照片，让 ChatGPT 确认这套工具是否可行，ChatGPT 顺利的找到了它…

这段时间被 AI 信息轰炸，看到这个视频...

虽然原理都能理解，这个过程也在预料之中，但还是有点科幻，它已经是现实了。

…

这让青小蛙有点恍惚，当人工智能再发展一段时间，它是不是就算拥有了意识？

本文原文链接：https://www.appinn.com/chatgpt-can-now-see-hear-and-speak/