編號:SBJS01043
篇名:多層次知識自蒸餾聯(lián)合多步驟訓練的細粒度圖像識別
作者:余鷹 危偉 湯洪 錢進
關鍵詞: 細粒度圖像識別 知識自蒸餾 Swin Transformer 特征學習 魯棒特征
機構: 華東交通大學軟件學院
摘要: 細粒度圖像識別具有類內差異大、類間差異小的特點,在智能零售、生物多樣性檢測和智慧交通等領域中有著廣闊的應用場景.提取到判別性強的多粒度特征是提升細粒度圖像識別精度的關鍵,而已有工作大多只在單一層次進行知識獲取,忽略了多層次信息交互對于提取魯棒性特征的有效性.另外一些工作通過引入注意力機制來找到局部判別區(qū)域,但這不可避免地增加了網(wǎng)絡復雜度.為了解決這些問題,提出了多層次知識自蒸餾聯(lián)合多步驟訓練的細粒度圖像識別(multi-level knowledge self-distillation with multi-step training for fine-grained image recognition, MKSMT)模型.該模型首先在網(wǎng)絡淺層進行特征學習,然后在深層網(wǎng)絡再次進行特征學習,并利用知識自蒸餾將深層網(wǎng)絡知識遷移至淺層網(wǎng)絡中,優(yōu)化后的淺層網(wǎng)絡又能幫助深層網(wǎng)絡提取到更魯棒的特征,進而提高整個模型的性能.實驗結果表明,MKSMT在CUB-200-2011、 NA-Birds和Stanford Dogs這3個公開細粒度圖像數(shù)據(jù)集上分別達到了92.8%、 92.6%和91.1%的分類準確度,性能優(yōu)于當前大部分細粒度識別算法.