社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

微软开源OmniParser纯视觉GUI智能体;华为云公布两项数字人相关专利丨AIGC日报

创业邦 • 3 周前 • 31 次点击  

1.【梦网科技联合智谱AI推动5G阅信应用再升级,实现“文生文”、语义分析等功能】10月25日,智谱AI推出自主智能体Au-t-o-G-LM。该智能体可以通过语音指令理解用户意图并模拟人类操作手机。据相关资料显示,在实际应用中,梦网科技联合智谱AI推动5G阅信应用再升级,实现了“文生文”、“文生图”以及语义分析、素材分析等强大功能,为企业主带来前所未有的便捷和效率,推动消息服务智能化转型。

2.【华为云公布两项数字人相关专利】天眼查知识产权信息显示,10月29日,华为云计算技术有限公司申请的“数字人多媒体资源的生成方法、装置、设备及存储介质”和“数字人视频的生成方法、装置、设备及存储介质”专利公布。“数字人视频的生成”专利提供了一种支持灵活编辑对象属性的数字人视频生成流程,基于输入的单张对象图像,无需更多操作,即可根据用户需求来调整数字人呈现的对象属性,生成自然、真实性强的数字人视频,提升用户体验,降低生成过程中提高真实性所需的操作成本。

3.【微软开源OmniParser纯视觉GUI智能体:让GPT-4V秒懂屏幕截图,可操控手机 / 电脑】科技媒体marktechpost称微软公司宣布开源OmniParser,是一款解析和识别屏幕上可交互图标的AI工具。该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能GUI自动化领域的一项令人兴奋的进展。OmniParser 结合可交互区域检测模型、图标描述模型和OCR模块等,不需要HTML标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性OmniParser除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。

4.【消息称Meta正开发自家AI搜索引擎:追赶OpenAI,降低对微软、谷歌的依赖】科技媒体The Information 10月28日发布博文,报道称Meta公司一方面为减少对微软、谷歌的依赖,另一方面追赶 OpenAI在AI领域的发展,正开发一款AI搜索引擎。该媒体报道,内置于Instagram和Facebook 的 Meta AI 机器人目前调用谷歌公司的 Google 和微软 Bing 搜索引擎,来回答用户关于近期新闻和事件的问题。而消息称Meta公司早在8个月前就组建了专门的团队,通过网络爬虫收集了大数量网页数据,并建立了一个信息数据库。Meta还在努力构建位置数据,以与Google Maps竞争,显示出其在搜索引擎领域的野心。

更多AIGC资讯……


扫码订阅AIGC产业日报,
精选行业新闻,帮你省时间!👇


此外,如果您还想查公司、找项目、看行业,深入了解人形机器人、商业航天、AGI等热门赛道,欢迎加入睿兽分析会员,解锁相关行业图谱和报告等。(活动期间加入会员可免费获赠一份产业日报)👇👇



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175432
 
31 次点击