Chrome Extension

WeChat Mini Program

Use on ChatGLM

Log in

Academic Profile User Profile

My Following Paper Collections Browse History

ParameterNet: Parameters Are All You Need for Large-scale Visual Pretraining of Mobile Networks.

Kai Han,Yunhe Wang,Jianyuan Guo,Enhua Wu

Computing Research Repository (CoRR)（2024）

Huawei Noah's Ark Lab | University of Sydney | University of Macau

Cited 28|Views38

Abstract

The large-scale visual pretraining has significantly improve the performance of large vision models. However, we observe the low FLOPs pitfall that the existing low-FLOPs models cannot benefit from large-scale pretraining. In this paper, we introduce a novel design principle, termed ParameterNet, aimed at augmenting the number of parame-ters in large-scale visual pretraining models while minimizing the increase in FLOPs. We leverage dynamic convolutions to incorporate additional parameters into the networks with only a marginal rise in FLOPs. The ParameterNet approach allows low-FLOPs networks to take advantage of large-scale visual pretraining. Furthermore, we extend the ParameterNet concept to the language domain to enhance inference results while preserving inference speed. Experiments on the large-scale ImageNet-22K have shown the superiority of our ParameterNet scheme. For example, ParameterNet-600M can achieve higher accuracy than the widely-used Swin Transformer ( 81.6% vs. 80.9%) and has much lower FLOPs (0.6G vs. 4.5G). The code will be released at https://parameternet.github.io/.

More

Translated text

Key words

Large-scale Pretraining,Rational Design,Visual Model,Language Domains,Large Datasets,Learning Rate,Convolutional Layers,Computer Vision,Object Detection,Large-scale Datasets,Visual Task,Weight Decay,ImageNet,Semantic Segmentation,Fully-connected Layer,Language Model,Number Of Experts,Top-1 Accuracy,Transformer Architecture,Standard Convolution,Vision Transformer,Base Learning Rate,AdamW Optimizer,Hidden Size,Training Loss,Training Dataset,Neural Network,Trainable Parameters

Bibtex

AI Read Science

Must-Reading Tree

Example

Generate MRT to find the research sequence of this paper

Related Papers

Reference papers

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton

2017

被引用36407 | 浏览

The New Data and New Challenges in Multimedia Research.

Bart Thomee,David A. Shamma,Gerald Friedland,Benjamin Elizalde,Karl Ni,Douglas Poland,Damian Borth,Li-Jia Li

2015

被引用344 | 浏览

ImageNet Large Scale Visual Recognition Challenge

Olga Russakovsky,Jia Deng,Hao Su,Jonathan Krause,Sanjeev Satheesh,Sean Ma,Zhiheng Huang,Andrej Karpathy,Aditya Khosla,Michael Bernstein,Alexander C. Berg,Li Fei-Fei

2015

被引用50151 | 浏览

Deep Residual Learning for Image Recognition

Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun

2016

被引用264071 | 浏览

Rethinking the Inception Architecture for Computer Vision

Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe, Jon Shlens,Zbigniew Wojna

2016

被引用38580 | 浏览

Yfcc100m: the New Data in Multimedia Research

Bart Thomee,Benjamin Elizalde,David A. Shamma,Karl Ni,Gerald Friedland,Douglas Poland,Damian Borth,Li-Jia Li

2016

被引用2189 | 浏览

Revisiting Unreasonable Effectiveness of Data in Deep Learning Era

Chen Sun,Abhinav Shrivastava,Saurabh Singh,Abhinav Gupta

2017

被引用3373 | 浏览

Mixup: Beyond Empirical Risk Minimization.

Hongyi Zhang,Moustapha Cisse,Yann N. Dauphin,David Lopez-Paz

2018

被引用12607 | 浏览

The Open Images Dataset V4

Alina Kuznetsova,Hassan Rom,Neil Alldrin,Jasper Uijlings,Ivan Krasin,Jordi Pont-Tuset,Shahab Kamali,Stefan Popov,Matteo Malloci,Alexander Kolesnikov,Tom Duerig,Vittorio Ferrari

2020

被引用739 | 浏览

Billion-scale Semi-Supervised Learning for Image Classification

I. Zeki Yalniz,Hervé Jégou,Kan Chen,Manohar Paluri,Dhruv Mahajan

2019

被引用95 | 浏览

Searching for MobileNetV3.

Andrew Howard,Mark Sandler,Grace Chu,Liang-Chieh Chen,Bo Chen,Mingxing Tan,Weijun Wang,Yukun Zhu,Ruoming Pang,Vijay Vasudevan,Quoc V. Le,Hartwig Adam

2019

被引用10497 | 浏览

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

Sangdoo Yun,Dongyoon Han,Seong Joon Oh,Sanghyuk Chun,Junsuk Choe,Youngjoon Yoo

2019

被引用6425 | 浏览

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Mingxing Tan,Quoc V. Le

2019

被引用27648 | 浏览

Self-Training with Noisy Student Improves ImageNet Classification.

Qizhe Xie,Minh-Thang Luong,Eduard Hovy,Quoc Le

2020

被引用3071 | 浏览

Dynamic Convolution: Attention over Convolution Kernels.

Yinpeng Chen,Xiyang Dai,Mengchen Liu,Dongdong Chen,Lu Yuan,Zicheng Liu

2020

被引用1288 | 浏览

End-to-End Object Detection with Transformers

Nicolas Carion,Francisco Massa,Gabriel Synnaeve,Nicolas Usunier,Alexander Kirillov,Sergey Zagoruyko

2020

被引用17196 | 浏览

Language Models Are Few-Shot Learners.

Tom B. Brown,Benjamin Mann,Nick Ryder,Melanie Subbiah,Jared Kaplan,Prafulla Dhariwal,Arvind Neelakantan,Pranav Shyam,Girish Sastry,Amanda Askell,Sandhini Agarwal,Ariel Herbert-Voss,

2020

被引用43873 | 浏览

Big Transfer (bit): General Visual Representation Learning

Alexander Kolesnikov,Lucas Beyer,Xiaohua Zhai,J. Puigcerver,Jessica Yung,S. Gelly,N. Houlsby

2019

被引用1439 | 浏览

A Survey on Vision Transformer

Kai Han,Yunhe Wang,Hanting Chen,Xinghao Chen,Jianyuan Guo,Zhenhua Liu,Yehui Tang,An Xiao,Chunjing Xu,Yixing Xu,Zhaohui Yang,Yiman Zhang,

2023

被引用3053 | 浏览

Deep residual learning for image recognition

H Gao, Z Liu,KQ Weinberger,L van der Maaten

2017

被引用81084 | 浏览

EfficientNetV2: Smaller Models and Faster Training

Mingxing Tan,Quoc Le

2021

被引用3913 | 浏览

MLP-Mixer: an All-Mlp Architecture for Vision

Ilya Tolstikhin,Neil Houlsby,Alexander Kolesnikov,Lucas Beyer,Xiaohua Zhai,Thomas Unterthiner,Jessica Yung,Andreas Peter Steiner,Daniel Keysers,Jakob Uszkoreit,Mario Lucic,Alexey Dosovitskiy

2021

被引用3296 | 浏览

Scaling Vision Transformers

Xiaohua Zhai,Alexander Kolesnikov,Neil Houlsby,Lucas Beyer

2022

被引用1356 | 浏览

CMT: Convolutional Neural Networks Meet Vision Transformers

Jianyuan Guo,Kai Han,Han Wu,Yehui Tang,Xinghao Chen,Yunhe Wang,Chang Xu

2022

被引用927 | 浏览

AS-MLP: an Axial Shifted MLP Architecture for Vision

Dongze Lian,Zehao Yu,Xing Sun,Shenghua Gao

2022

被引用245 | 浏览

GradientBased Learning Applied to Document Recognition

S. Haykin,Bart Kosko

2009

被引用27367 | 浏览

A ConvNet for the 2020S

Zhuang Liu,Hanzi Mao,Chao-Yuan Wu,Christoph Feichtenhofer,Trevor Darrell,Saining Xie

2022

被引用7749 | 浏览

Imagenet classification with deep convolutional neural networks

A Romero,N Ballas, SE Kahou, A Chassang,C Gatta,Y Bengio

2015

被引用24762 | 浏览

Vision GNN: an Image is Worth Graph of Nodes.

Kai Han,Yunhe Wang,Jianyuan Guo,Yehui Tang,Enhua Wu

2022

被引用491 | 浏览

Segment Anything

Alexander Kirillov,Eric Mintun,Nikhila Ravi,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao,Spencer Whitehead,Alexander C. Berg,Wan-Yen Lo,Piotr Dollar,Ross Girshick

2023

被引用10007 | 浏览

Data Disclaimer

The page data are from open Internet sources, cooperative publishers and automatic analysis results through AI technology. We do not make any commitments and guarantees for the validity, accuracy, correctness, reliability, completeness and timeliness of the page data. If you have any questions, please contact us by email: report@aminer.cn

Chat Paper

【要点】：本文提出ParameterNet，一种新型设计原理，通过在不显著增加FLOPs的情况下增加模型参数，使低FLOPs网络能够从大规模视觉预训练中获益，并在视觉和语言领域均取得了优越性能。

【方法】：ParameterNet利用动态卷积在保持FLOPs几乎不变的情况下，向网络中引入额外的参数。

【实验】：作者在ImageNet-22K数据集上对ParameterNet进行了实验验证，ParameterNet-600M模型在准确度上超过了广泛使用的Swin Transformer（81.6% vs. 80.9%），同时FLOPs远低于后者（0.6G vs. 4.5G）。在语言领域，增强版LLaMA-1B模型通过ParameterNet实现了2%的准确度提升。

去 AI 文献库对话