社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

GitHub黑市曝光!高档刷星6元一颗,最奇葩开源项目97%都是刷的!

CVer • 1 年前 • 422 次点击  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和Transformer】交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!投论文强烈推荐!

梦晨 克雷西 发自 凹非寺
转载自:量子位(QbitAI)

在黑市买GitHub星星多少钱?

最贵的高达6元一颗

有创业者Yassin Eldeeeb自掏腰包测试了一把。他足足花20欧元(约156人民币),只买到25颗“高级星星”。

没错,在黑市上刷GitHub星星也是分高低贵贱的。

高级的都是注册一年以上的账号来刷,昵称头像工作地点等个人资料非常自然绝不重样。

甚至至少还有一个对其他开源项目的贡献记录等,不但算法检测不出来,肉眼看也没毛病。

便宜的最低可做到0.4-0.88元一颗星星,这种就是最简单的新注册空号去刷了,默认头像,随机生成昵称的那种。

买了一个月以后发现都已经被平台封号处理,买到的星星也跟着消失了。

不过这种廉价服务最疯狂的地方在:失效了可以联系卖方,免费包重刷。

具体有多少人购买这种服务无从得知,不过Eldeeeb注意到他的账单编号是#57189,说明成交量绝对不在少数。

像这样的“黑市”刷星服务,最近被频频曝光,也在开发者社区成了话题热榜的常客。

大家的讨论中,有一个最奇葩的开源项目,被检测出有97%的星都是假的。

假星检测器

检测出这个奇葩项目的是另一位创业者Fraser Marlow,他偶然发现了GitHub黑市的存在。

同时他也注意到投资人越来越重视GitHub标星数,当作评估开源产品的指标了。

不过作为数据管道服务公司Dagster的增长主管,他不但没有给自己产品刷星——

反而与识别垃圾邮件的专家合作,收集数据并开发了一个假星检测器。

具体分为两种算法,简单算法只能检测出那些“一眼假”的。

比如大批账号都给相同的两个项目标星,没有贡献记录,除了头像和用户名不同其他一毛一样那种。

但对于开头提到的那种6元一星的高级账号,简单算法就无能为力了。

为此,Dagster还设计了一种更复杂的监督聚类算法。

原理也很简单,一批假账号会具有相似的特征,在可视化中可以聚集在一起。

而正常用户的特征应该相当独特,在统计上非常分散,不应该属于任何大的群体。

举个栗子来说,正常的GitHub账号不是每天都有活动记录,如果一群账号活跃的日期都重合,就表明它们很有可能是受同一个脚本控制的。

为验证算法可靠性,他们创建了一个靶子仓库,并真的去购买了刷星服务。

聚类算法在测试中表现非常好,接近100%的匹配率。

在更复杂的真实数据上,也达到了98%的精确度和85%的召回率。

接下来,团队在Github Archive公开数据集上综合使用两种算法测试。

一测不得了,造假最严重的okcash总标星759,简单算法只发现一个疑似假星,结合聚类算法直接蹦到97%,

由于计算成本较高,测试中只分析了2022年1月1日及之后获得的星星。

也就是说,还有很多2022年之前刷星的项目没有被揪出来。

与之相比,他们检测了自己的产品Dagster和几个同行,刷星率都比较低,看来数据管道这个行业还是比较健康的。

在这之后,他们与GitHub团队分享了这些发现,并把检测器也开源了。

曝光48小时之内,GitHub和刷星供应商都行动起来,他们测试用的“靶子仓库”中的假星都消失了。

据GitHub方面回应,其实多年以来一直都在积极打击刷星行为,但仍旧频发,根本管不住。

之前就有学术研究,通过数据分析找出63872个可疑账号,但其中只有不到5%被GitHub平台自己检测出并封号。

研究推测,刷星行业早在2018-2019年就获得了341万-437万美元的利润。

那么为什么会有人花大价钱买GitHub标星,真的能带来实际收益么?

投资人:我们就爱看星标

开源项目团队选择“刷星”的一个重要目的,就是吸引投资者的目光。

一家风险投资公司的合伙人Pratima Aiyagari 表示,做开源项目极大可能很久都赚不到钱。

既然收入情况没法拿来参考,那就要多看一看产品本身的状况了。

考察开源项目最准确的方式是查看代码,但这种方法复杂繁琐且专业性强,并没有成为投资者的首选方式。

于是投资者找出了替代方法——看星标——实际上,他们天生就会寻找快速增长的新账号。

除了绝对数量,风投公司Runa还专门设计了一种名为ROSS指数的指标,依据星标数年增长率对团队进行排名。

Runa的一名合伙人Konstantin Vinogradov说,ROSS指标已经成为了开源项目遵循的重要标准,排名靠前的开源项目中有三分之一都获得了融资。

不过伴随着“刷星”现象的出现,投资者对星标数的看法也开始弱化。

投资人Kevin Zhang说,星标数可能可以成为一块“敲门砖”,但不意味着投资者会因为星标数和项目团队“第二次见面”。

这也印证了学术界的看法——加州大学圣地亚哥分校助理教授Stuart Geiger表示,随着时间的推移,指标(星标数)可能会自行失效。

这就涉及到了两条社会科学定律——坎贝尔定律和古德哈特定律。

坎贝尔定律说,决策当中使用的一项指标越受重视,就越容易被操纵。

好比网络购物,实物我们看不见摸不着,自然就会参考其他买家的评价,于是“刷单”现象也就应运而生了。

古德哈特定律则认为,如果一项指标被人们刻意追逐,那就不(或不再)是一个好的指标。

但在没有更好的替代指标的情况下,就必须确保数据的真实度了,就好像在考试中要不遗余力地打击作弊一样。

不过,除了想吸引投资者的团队之外,还有许多个人开发者也会“刷星”。

目的和创业团队有异曲同工之处,只不过吸引的不是投资者而是HR,希望高星项目能在求职中为他们带来优势。

事实上,也的确有企业将GitHub信息作为评价求职者的指标,甚至有人凭借套壳项目就斩获了Google的offer。


除了选人,在技术选型时也是同样的道理——很多人(尤其非专业人士)会倾向于使用高星项目。

除了GitHub,还有综合型产品发布平台Product hunt,数据类产品平台kaggle,以及IT问答平台StackOverFlow等媒介也越来越多的受到投资人的关注。

不过如果不能建立有效的“防刷单”策略,可能最终也难逃换汤不换药的命运。

对于这种现象,有人总结是“Fake it till they make it.”——

如同“先上车后补票”一样,先假装自己已经成功,直到真的成功为止。

One More Thing

AI,特别是大模型的发展,让检测虚假账户越来越难了。

以前的造假可能只是刷刷星标和点赞,判断用户真伪的方式主要是看账户本身的特征。

但自从有了ChatGPT以后,还可以刷以假乱真而且不重样的评论。

如果一个账户命中了虚假账号的特征,但发布的回复却和真人毫无二致,该如何判断它的真伪?

参考链接:
[1]
https://www.wired.com/story/github-stars-black-market-coders-cheat/
[2]https://news.ycombinator.com/item?id=37990338
[3]https://dagster.io/blog/fake-stars
[4]https://dl.acm.org/doi/10.1145/3427228.3427258

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直 方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/164027
 
422 次点击