链接:https://www.zhihu.com/question/540433389
作者:Gordon Lee
https://www.zhihu.com/question/540433389/answer/2549775065
2. MLM: 在领域语料上用mlm进一步预训练 (Post-training)3. EFL: 少样本下,把分类问题转为匹配问题,把输入构造为NSP任务形式.4. 混合精度fp16: 加快训练速度,提高训练精度5. 多卡ddp训练的时候,用到梯度累积时,可以使用no_sync减少不必要的梯度同步,加快速度6. 对于验证集或者测试集特别大的情况,可以尝试多卡inference,需要用的就是dist.all_gather,对于非张量的话也可以用all_gather_object7. PET: 少样本下,把分类转为mask位置预测,并构造verbalizer,参考EACL2021. PET8. ArcFaceLoss:双塔句子匹配的loss把NT-Xent loss改成arccos的形式,参考ACL2022. ArcCSE9. 数据增强在zero shot x-lingual transfer:code switch,machine translation..记得最后加一致性loss,参考consistency regularization for cross lingual finetuning10. SimCSE:继续在领域语料上做simcse的预训练12. 双塔迟交互:maxsim操作:query和doc的每个token表征算相似度,取最大相似度再求和。速度和精度都有一个很好的平衡,参考colbert13. 持续学习减轻遗忘:EWC方法+一个很强的预训练模型效果很不错。就是加一个正则让重要参数遗忘不太多,重要性用fisher信息度量。14. 对抗训练:FGM,PGD,能提点,就是训练慢,15. memory bank增大bsz,虽然我感觉有时候有点鸡肋16. PolyLoss: -logpt + eps * (1-pt) 效果存疑,反正我试了没啥效果,有人试过效果不错作者:罗胤
https://www.zhihu.com/question/540433389/answer/2669605576
比较同意高赞说的,对性能影响最大的其实还是数据
上学时也喜欢去了解各种刷分的trick,想着将来在比赛中用,说不定能出奇效,最好能直接一击制胜。比赛中,这确实有必要,因为比赛数据是提供好的,我们所需要做的就是要去探索各种好使的奇技淫巧,甭管什么,能涨分就行了工作后才发现实际做业务的时候最关心的还是数据,性能不好,继续标数据就行了,要不就业务方标要不就自己标,真的就有标了那几十条百来条数据后性能大涨的情况。当然这里得说一下,标数据也是有章法的,不是什么数据都标,基本上的步骤流程都是分析模型bad case的规律,然后找类似的数据来标注。这个过程的最终结果是选了对于当前模型状态来说,最有价值的一批数据来进行标注,本质上其实就是进行人肉的主动学习。不过我没去试过一些主流的主动学习方法,不知道好不好用,了解的同学可以回答一下:-)话说回来,实际业务中,相对于trick,标数据的综合收益是最大的,因为数据本身就是一种珍贵的资源,特别是对于带标签数据,标数据那就是前人栽树后人乘凉的行为,积累到一定程度也能成为壁垒。而trick的话,一个是不一定好用,然后不一定正交,最后还不一定通用,整体不确定性比较大,回报率还是比较低的,所以不如直接简单粗暴标数据 。
作者:AI高级人工智能
https://www.zhihu.com/question/540433389/answer/2601363270
旅游景区是一种以旅游及相关活动为主的区域场所,通常供游客在闲暇之余参观游览、度假、健身等,同时也具备相关的设施和提供相应旅游服务的独立管理区。旅游景区主要是围绕着各种山水、寺庙、公园等建立的。 异常行为是一种社会生活中普遍存在的社会现象,分为一般性异常行为,例如违反交通等,以及严重异常行为,例如违法犯罪行为等。更具体来讲,异常行为是指在某一种场景中,在正常时刻的正常位置发生的不寻常动作,或是在非正常时刻的非正常位置发生的动作。该行为通常是由人类发出的,包括一些暴力性质行为(如挥拳、用脚踹、奔跑、踩踏等),该类行为通常是在两人以上条件下发生,且动作发生快,另外是一些非暴力性质行为(如涂画、静坐、行走等),该类行为一般是由一人发起的,且动作发生过程较长。
异常行为识别系统是通过计算机视觉技术、图像视频处理技术和人工智能识别技术对监控视频内容进行分析,再根据分析结果对系统进行控制的过程。对于旅游景区中的异常行为识别系统,是指通过检测景区中的监控视频来实时识别并预警各种游客的特定异常行为,从而达到监管要求。