臉書新的電腦視覺技術DINO以自我監督式學習，學會精確分割影片和圖像中物體

左圖為原圖，中圖為使用監督式模型的分割結果，右圖為臉書DINO分割結果

臉書與法國國家信息與自動化研究所（Inria）合作，開發了一種稱為的人工智慧演算法，使用無監督式方法來訓練Vision Transformers (ViT)，也就是說，這個新模型將可以在沒有監督且沒有目標分割物體的情況，從影片或是圖像中發現和分割出物體。

分割物體有助於簡化任務，像是要置換視訊通話的背景，或是訓練機器人在環境中正確的導航，都會用到該項技術，研究人員提到，過去分割物體被視為電腦視覺中困難的挑戰之一，因為要求人工智慧必須要真正了解圖像內容。

過去分割物體都要採監督式學習，並使用龐大帶有註解的訓練資料，像是需要使用帶有狗標籤的圖片，來教人工智慧模型辨識狗。而研究人員現在所發布的DINO，證明只需要自我監督和合適的架構，就能夠精確地分割物體，透過結合Transformers以及自我監督式學習，DINO已能夠深度理解圖像和影片。

Transformers被大量應用在自然語言處理上，而在過去一年更有許多開創性的發展，像是Transformers已經被用於圖像分類和偵測物體等電腦視覺應用，而研究人員提到，使用大量非監督資料來預訓練基於Transformer的圖像表達，在這個研究領域帶來了新的進展。用DINO演算法訓練ViT，研究人員觀察到模型會自動學習可解釋的表達，並將主要物體和雜亂背景分開，還學會在沒有任何人為註解下分割物體。

另外，雖然高效能運算在電腦視覺應用中是重要的部分，但是高效率演算法也非常重要，讓開發人員可以不需使用大規模運算資源，就能夠訓練模型，在公開DINO的同時，研究人員也分享了有關新模型訓練方法PAWS，該方法能使用較少的計算量獲得良好的結果。

研究人員表示，使用PAWS來訓練標準ResNet-50模型，只要使用ImageNet中百分之一的標籤，就可以獲得絕佳的準確性，且預訓練步驟能比過去的方法減少10倍。人工智慧研究團隊可以利用DINO和PAWS來建置最新的電腦視覺系統，而這些系統可以大幅降低對標籤資料以及大量運算資源的依賴。

https://www.ithome.com.tw/news/144210