您的位置首页  散文童话

cv是什么意思(cv是什么意思计算机)奔走相告

如题

cv是什么意思(cv是什么意思计算机)奔走相告

 

链接:https://www.zhihu.com/question/383486199/answer/3049588800编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:王云鹤https://www.zhihu.com/question/383486199/answer/3049588800

我估计好多人觉得CV没啥意思,除了精度难刷,另外就是被LLM卷的,在AI领域的热度都被ChatGPT相关的讨论带走了,尤其现在有很多AI相关的媒体导致AI相关的讨论门槛越来越低但其实CV确确实实还有很多技术问题没有被解决,虽然没有“涌现”的那么魔幻,但很多工作也都在持续革新领域内的技术。

最近CV方向也有很多人开始讨论“大模型”,好像除了“大模型”之外,都没有什么可值得讨论的东西了,在去年11月初的时候写过一个思考,那时候的观点现在看起来也还ok王云鹤:关于AI大模型的一点思考和讨论https://zhuanlan.zhihu.com/p/580745171

CV到底有没有大模型?我认为像GPT那种大模型短期是没有的,这个观点在跟不同的人讨论中都有一定的共识,CV缺乏像GPT那种大一统的学习任务除了底层视觉,目前这个事情还不太可能其实,CV里面用到的最贴近大模型的反而是Backbone,Backbone里面用的最多的还是ResNet-50系列,因为性能和效率仍然是比较不错的trade-off。

在ImageNet上预训练好的骨干网络模型就可以在很多检测、分割、重识别、细粒度分类等任务上获得不错的精度,这反而更贴近foundation model的初衷最近我们做了一个比较有意思的工作,也可以推荐大家用一用。

6层的VanillaNet结构图,没有Shortcut,致敬LeNet、AlexNet和VGGNet6层的VanillaNet(朴素网络)可以超过ResNet-34,13层的VanillaNet在ImageNet达到83%的top1精度,超过几百层网络的性能,并展现了非凡的硬件效率优势。

王云鹤:卷积的尽头不是Transformer,极简架构潜力无限https://zhuanlan.zhihu.com/p/632685158我们也把相关的代码和预训练模型都开源了,收到了不少同学的反馈和建议,VanillaNet主要发挥的是GPU对矩阵乘法密集计算的效率优势,所以虽然有更多的parameter和flops,latency反而是由于其他模型的,后续我们也有很多持续提升的计划:加预训练,加蒸馏,这也是现在基于vision transformer的骨干网络的常用策略;加分辨率,参考EfficeintNet系列,进一步优化网络结构;与模型压缩联动,与其他模型融合,争取获得更好的trade-off。

作者:谢流远https://www.zhihu.com/question/383486199/answer/1568812291因为cv入行最容易,所以最内卷nlp还要学点分字分词语法分析啥的,数据清洗里面一堆trick。

语音更是mfcc怎么算都要学半天,完事一堆decodingRL先要学一堆policy value q啥的概念,然后里面一堆不足为外人道的trick,你不懂你的模型根本就不收敛只有cv会rgb就行了,lab都不需要的。

作者:黑夜的眼睛https://www.zhihu.com/question/383486199/answer/2272587312早两三年的话,真没那么卷,有个好点的想法,配合简单的网络结构就能出篇不错的论文。

现在要产出高质量的论文,网络复杂度是原来的好几倍至于现在,除非你是在头部的实验室或者公司,不让我基本觉得没啥机会卷出头,其他直接无脑大模型加微调,除非你的问题分解思路领先一整个版本,不然没啥机会现在我倒是觉得部分cv的更加回归本质了,深度学习不是银弹,一部分的领域已经开始研究问题建模了,最典型的就是nerf系列的论文。

我觉得图形结构的隐式表示真的是很有趣的想法,合成结果依靠的是对问题的思考,对数学模型的构建而不是靠算力堆上去,如果看懂了nerf的思路,就真的会觉得这东西就是人的智慧的体现21年cvprbest paper giraffe当之无愧。

(另一方面,我对舆论鼓吹transformer非常反感,个人非常不喜欢transformer一类的工作,过分强调网络性能结果导致忽略对问题的分析在大部分cv任务里,transformer完全就可以视为加强版的backbone,很少有类似detr这种从底层改变的成果。

实在很难想象一些学校的导师会视这些东西为创新点另外补充,自回归生成也是很优秀的思路,transformer的作用也被体现了出来我真正不喜欢的是类似于xxformer这种东西)补:2022 年末的时候,diffusion 火了, 不过我个人倾向于将它分成两部分,纯diffusion和 大模型。

纯 diffusion 的话是中全新的建模方式,可惜我数学不够好,本来2021 就偶然看到相关论文了,但是当前完全没办法理解里面描述的过程和实现原理至于大模型,我觉得某种意义上来说类似stable diffusion 是一种类似 vq gan 的替代,先验分布从原来的 gpt 或者 transformer生成 变成了diffusion 生成。

惊艳的效果背后,同时也需要海量的计算资源,更令我惊讶的是开源的代码,需要顶级算法和同样顶级的工程能力最近也看到了不少通过微调预训练模型实现微调的图像生成论文,hugging face 上的api 也确实好用,但是大模型大行其道的同时,普通学校的学生可能也得重新审视未来的方向了。

☆ END ☆如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。↓扫描二维码添加小编↓

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186