社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

煮酒言规 | 第102期 | 王迁老师AIGC实验讨论

数据何规 • 1 年前 • 192 次点击  



煮酒言规

///////////////



数据合规是一个比较新的领域,很多问题都难以通过公开渠道检索到答案。此时,实务人士间的思想碰撞、交流就显得尤为珍贵。



 • CONTENT • 


「DPA可以补签吗

「认定“舆论属性或社会动员能力”

「王迁老师AIGC实验讨论

「SSID和定位权限的关系



● DPA可以补签吗

-问:DPA在签署的过程中 但数据处理活动已经在搞的,这种情况普遍吗?

-答1:这个可能得小心点,欧洲有个案例,追溯条款无效,详见:https://privacymatters.dlapiper.com/2023/11/belgian-dpa-decides-on-the-invalidity-of-retroactive-data-processing-agreements/。

-答2国内的可以考虑在服务协议中先定下来角色。



总结:在国内配合你签就不错了。

● 认定“舆论属性或者社会动员能力”

-问:现在产品是不是只要接入大模型就需要备案呀?打电话给网信,产品想要接入大模型,用于给教师作为备课助手,我理解这种情形不属于需要备案的“具有舆论属性或者社会动员能力”的情形呀。掰头了半天,还是让做备案。

-答1:大模型提供的服务都有舆论属性

-答2:这还没有?

-答3:主管部门找你,万一有FD的言论怎么办。

-答4:如果对外(即教师)提供服务,可能会被认为有公众属性。

-答5:某品牌学习机关于《蔺相如》的作文了解一下。

-答6:基本上只要是受众是较为公开的且面对不特定用户的,都会被认定为具有舆论属性或社会动员能力。看上去 只要是有点不可控的、不特定主体能发表意见的都算?我感觉用户即使不能发言也算吧。

-答7:好像是有评论区、网友能发言的都算。咨询结果:“具有舆论属性或者社会动员能力”的范围是很广的,基本上只要是给公众提供信息服务的,都属于这个范围里,比如说客服软件,或者是人工智能回答软件,都属于具有舆论和动员能力。是的,通用大模型和垂类太模型都需要做算法备案和安全评估。

-答8:哈哈哈,好多游戏为了省合规成本,干脆不开沟通功能。

-答9:舆论属性这个的认定网安内部有统一指导标准的,目前口径比较宽,最近也刚问过,对接入大模型的情形都倾向于要做备案评估,他们也会直接根据你接入的哪家模型来判断。

● 王迁老师AIGC讲座相关讨论

-问:大家怎么看这两篇文章中关于王迁老师AIGC讲座的实验及回应?

问题:

复现AI“文生图”,发掘一点与王迁教授讲座中的不同事实

复现AI“文生图”第二弹,“物理学”又完蛋了?

回应:

回应《复现AI文生图发掘一点与王迁教授讲座中不同的事实》

-答1:建议他去了解下stable diffusion的原理,再做实验。

-答2:观点可以有差异,但赞同正反双方的实证主义的态度和方法。

-答3:王老师还是以作品为起点反推作者,只能说 也是一种分析路径。但是对于越来越复杂的创作环境,有点太单一了。

-答4:有一点是没问题的,创作的表达主要是AI贡献的

-答5:赞同。不能因为想赋权、又无法突破“权利主体是人”的现有法律原则,就非要否定这点。削足适履不可取。另外,需要讨论(fansi)一下,如果著作权法在“AI生成物的可版权性”问题上如此激进,非要对生产边际成本递减接近零的生成物实施强版权保护,这背后到底是谁的诉求、保护了谁、损害了谁?如此“赋权”是生产关系调整和权利配置的真实需要么?想想就脑袋大,不能只图一案判决一时爽啊。

-答6:现在有的法院喜欢卷所谓的“第一案”,一旦如此,会坏了司法水源。

-答7:理论上讲就是对算法做可复现性分析。这里主要涉及到随机数传递、计算近似和算子原子性三个方面。随机数传递大概来说,就是是不是用的同一种方法来生成随机数,然后生成的结果是不是在整个计算过程里一直传递下去。如果方法不同或者结果不传递,就会影响复现。计算近似是一些特别消耗时间或者空间的计算操作,比如说稀疏矩阵的相乘,具体执行的时候要和硬件协同做很多优化,特别是GPU并行计算时的优化。这时候的优化很多时候都会放弃少许的确定性。算子原子性更加复杂,简单来说就是特定的硬件,比如说英伟达的卡,特定的卷积算子都在内在地有随机性的。并行计算优化或者调用有关算子都会引入随机性。随机数传递引入的随机性一般可以通过设置全局传递来解决。计算近似或者原子性引入的随机性只能通过更换实现方法来解决。Stable Diffusion的不可复现性,包括CPU和GPU之间的差别基本就是这些来源。深入做复现实验也是相应的思路。

-答8:第一案这样弄完法官压力估计更大了,社会舆论四起,翻盘也极有可能。

-答9:第一案已经没得翻了,除非法院自己提起再审,“AI文生图”著作权案一审生效

-答10:还有一层,就是如果中国成了AI版权的洼地,而这个欧美又不被承认AI生成物的版权,然后会发生啥。

-答11:如果不从作品反推,而是从作者这一侧正向推导。那创作确实不是简单几条指令,提示词的设置和调整非常复杂,创造性不低。而且增减提示词没有那么容易,软件创造的门槛不靠抄提示词不行。边际价值保护的是什么,应该是作者思考和创作的成本,这个时代的创作从调教画笔变成了调教软件。从传统创作变成了软件创作。不过赋权确实太先锋了,而且在判决中显得没有必要.. 也确实带来了上面的问题。

-答12:Hugging Face有一篇Create Reproducible Pipelines,原理讲得不多,但给了可复现Stable Diffusion的完整解决思路。Stable Diffusion和Transformer的可复现性分析都是可实现的,只是做起来确实麻烦。之后如果考虑AIA的GPAI部分,有些内容也算是密切相关。如果用了硬随机确实如此,不过这个真就是数字艺术了。

-答13:但是工具发展的方向是越来越“傻瓜式”的,必然是让越来越多人更容易去生成。复杂的提示工程并非主流。在这个背景下,提示词要产生独创性还是很难得,美国版权局也坚决否认提示词能产生生成作品的独创性。

-答14:嗯嗯,退一步来说,即使承认提示词有独创性,独创性的高低也值得考量,未来AI工具越来越用户友好后(类比傻瓜相机),提示词会越来越简单,未来可能也会出现许多“提示词指南”作为辅助。

-答15:像那种生成一只打伞的龙猫,这种提示词,应该认为是比较低级的,未来如果都是这种提示词,另当别论。但现在Stable Diffusion这种,挺复杂的,需要反复调,他不是那种有个操作界面的这种,区别不亚于从DOS到有了Win。对于这种使用有门槛 输出有价值的软件创作,我个人感觉还是值得保护。如果未来高级了,都傻瓜了,那就另案调整被。

-答16:身边不少用AI搞创作的朋友就是这样的想法,现在用的提示词还是很复杂的,要反复修正才能达到自己想要的效果,所以他们看到第一案的结果都比较开心。

-答17:可不。如果按照咱们生图第一案的“创作”标准,米国版权局就得马上立刻毫不犹豫给予版权登记,而不是三番四次予以驳回。

总结:立法缺位,司法造法。版权洼地深入想想还挺麻烦。

● SSID和定位权限的关系

-问:请教一下各位大佬:BSSID和SSID的调用频次,和定位权限申请是否相关?(我看着日志挺相关的但不确定)

-答1:有关的,跟位置信息有关



 • END • 


青梅煮酒论英雄
会当绝顶言合规

「往期问答汇总见“阅读原文




关注小号防失联

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/166393
 
192 次点击