ABSTRACT

YOLO v3는 표적 위치 인식 정확도가 낮고 표적 분포가 밀집하고 크기 차이가 큰 복잡한 장면에서 탐지 효과를 개선해야합니다. 이 문제를 해결하기 위해 본 논문에서는 YOLO v3 알고리즘을 기반으로 한 개선 된 다중 스케일 표적 탐지 알고리즘 FF-YOLO를 제안한다. 첫째, darknet53의 잔차 구조를 FCN-DenseNet 구조로 대체하고 기능 재사용을 통해 기능을 효과적으로 추출하고 경사 소멸 문제를 더욱 완화했습니다. 둘째, 네 번째 탐지 척도를 추가하여 네트워크가 더 얕은 위치 정보를 학습하도록합니다. 마지막으로 Spatial Pyramid Pooling 모듈이 각 감지 계층 앞에 추가되어 로컬 특징 정보가 깊이 융합됩니다. 실험에 따르면 FF-YOLO는 복잡한 장면에서 다중 스케일 대상의 탐지 정확도를 효과적으로 향상시킬 수 있습니다. Pascal VOC2007 데이터 세트에서 FFYOLO의 mAP는 YOLO v3보다 5.8 % 높으며, 동시에 중소형 타겟에 대한 FF-YOLO의 mAP는 MS COCO의 YOLO v3보다 1.5 % 및 2.2 % 높습니다. 데이터 세트.

I. INTRODUCTION

표적 탐지의 목적은 이미지에서 관심있는 표적을 탐지하고 표적의 범주와 위치를 결정하는 것입니다. X 선 이미지 감지 이미지 감지 [1], 교통 표지 인식 [2], 지능형 인식 모니터링 [3], 산업 감지 [4] 및 기타 분야에서 널리 사용되었습니다. 이미지 분류에서 딥 러닝 알고리즘의 획기적인 발전 [5-6]에 따라 표적 탐지 알고리즘은 수동 특징 추출에 기반한 기존 탐지 알고리즘 [7-9]에서 딥 러닝 기반 탐지 알고리즘 [10-12]으로 발전했습니다. 딥 러닝 기반의 물체 감지 알고리즘은 인공적 경험과 열악한 견고성에 의존하는 기존 방법의 문제를 극복하고 감지 정확도가 크게 향상되었습니다.

감지 단계에 따라 딥 러닝 기반의 물체 감지 알고리즘은 제안 된 영역을 기반으로 한 2 단계 감지 알고리즘 [13]과 회귀 기반 1 단계 감지 알고리즘으로 나눌 수있다. 2 단계 표적 탐지 알고리즘은 R-CNN [14], Fast RCNN [15], Faster RCNN [16]으로 표현됩니다. 이러한 종류의 알고리즘은 이미지에서 가능한 개체의 일부 후보 영역을 검색하고 각 후보 영역의 개체를 인식합니다. YOLO v3 [17]로 대표되는 1 단계 표적 탐지 알고리즘은 네트워크에서 직접 기능을 추출하여 표적의 범주와 위치를 예측하여 탐지 효율이 높고 종단 간 실시간 탐지를 실현합니다. 최근 몇 년 동안 YOLO v3는 복잡성과 유연성이 낮기 때문에 복잡한 장면에서 널리 사용되었습니다. YOLO v3의 탐지 정확도를 높이고 복잡한 장면에서 다중 스케일 타겟의 정확한 탐지를 실현하는 것이 국내외 학자들의 연구 초점이되었습니다. Alexey Bochkovskiy 등 [18]은 YOLO v3을 개선하고 YOLO v4 표적 탐지 알고리즘을 제안했습니다. CSP [19] 모듈은 백본 네트워크 Darknet53에 추가되어 네트워크의 학습 능력을 향상 시켰으며, FPN과 PAN [20]의 조합이 특징 예측을 위해 도입되어 작은 표적의 탐지 성능이 더욱 향상되었습니다. Gong Ming et al. [21]은 YOLO v3와 Inception 구조를 결합하여 차원 축소 전환을 구현하고 특징 전달을 향상시키는 복잡한 원격 감지 이미지에 대한 선박 탐지 방법을 제안했으며 Ju Moran 등 [22]은주의 메커니즘을 기반으로 한 특징 융합 알고리즘을 제시했습니다. 주의 메커니즘을 사용하여 다른 스케일의 기능을 융합하고 각 채널의 기능에 가중치를 할당하여 다른 채널의 기능 간의 상관 관계를 학습하여 다중 스케일 대상 감지의 감지 정확도와 속도를 향상시킵니다. 위의 연구는 특징 예측, 특징 전달 및 특징 융합의 관점에서 YOLO v3 네트워크 모델을 개선하고 다중 스케일 타겟의 탐지 효과를 개선합니다. 그러나 복잡한 장면, 특히 겹치는 대상의 다중 스케일 감지의 경우 YOLO v3의 감지 정확도를 개선해야하며 추가 연구가 필요합니다.

위의 문제를 해결하기 위해 본 논문에서는 YOLO v3의 네트워크 구조를 개선합니다. 백본 네트워크의 잔여 모듈을 조밀 한 연결 구조로 교체하여 그래디언트 소실 문제를 완화하고 기능의 전송 및 재사용을 향상시킵니다. YOLO v3의 다중 스케일 예측 메커니즘을 최적화하고 네 번째 스케일을 추가하여 기능 맵을 예측하고 교차 레이어 기능을 융합합니다. 그리고 Spatial Pyramid Pooling 모듈을 추가하여 정보 전송을 더욱 강화하여 특징 맵이 풍부한 심층 의미 정보와 얕은 위치 정보를 동시에 갖도록합니다. 개선 된 네트워크 모델은 복잡한 중첩 대상 위치의 식별 정확도를 향상시키고 다중 스케일 대상의 부정확 한 위치 지정으로 인한 누락 감지 및 오 감지 문제를 개선합니다.

II. RESEARCH ON COMPLEX TARGET DETECTION

METHOD BASED ON YOLO V3

A. THE BASIC ARCHITECTURE OF THE YOLO V3

NETWORK

YOLO v3는 전체 연결 계층과 풀링 계층을 제거하고 백본 네트워크 DarkNet53 및 3 가지 분기 구조를 포함한 FCN (Full Convolution Network) 구조 [23]를 채택합니다. 그중 DarkNet53은 특징 추출을위한 기본 네트워크로 convolution 레이어와 하위 샘플링 레이어 사이에 잔차 구조 [24]를 추가하여 기울기 소실로 인한 손실을 완화하고 네트워크의 학습 능력을 강화합니다. 또한 네트워크는 FPN (Feature Pyramid Network) [25]의 아이디어를 바탕으로 3 개의 분기를 사용하여 서로 다른 스케일의 3 개의 피쳐 레이어를 융합하고 예측하며 다운 샘플링으로 얻은 다양한 크기의 피쳐 레이어를 융합하여 다른 레이어의 기능 정보를 융합하고 재사용합니다. YOLO v3의 네트워크 구조는 그림 1에 나와 있습니다.

B. STUDY ON OPTIMIZATION OF TARGET DETECTION

METHOD BASED ON YOLO V3 FOR COMPLEX SCENES

본 논문은 YOLO v3 컨볼 루션 네트워크의 구조를 개선합니다. 기능의 효율적인 전송을 달성하기 위해 YOLO v3의 백본 네트워크에서 ResNet skip-layer 연결 구조는 DenseNet [26]의 고밀도 연결 구조로 대체되었습니다. 심층적 특징 융합을 달성하기 위해 4 차원 검출 레이어가 추가되어 다중 스케일 예측 메커니즘을 최적화했습니다. 글로벌 및 로컬 기능의 깊은 융합을 실현하기 위해 SPP 모듈이 감지 계층 앞에 추가됩니다. 향상된 네트워크 FF-YOLO 구조는 그림 2에 나와 있습니다.

1) REPLACEMENT AND OPTIMIZATION OF BACKBONE

NETWORK CONNECTION STRUCTURE

ResNet의 스킵 연결에 비해 DenseNet의 조밀 한 연결은 기능 및 그라디언트의 전송을보다 효과적으로 만들 수 있습니다. 따라서 Residual 모듈을 DenseNet 구조로 대체하면 네트워크의 기능 재사용을 향상시키고 네트워크가 더 많은 기능 정보를 학습하고 표적 탐지의 정확도를 향상시킬 수 있습니다.

DenseNet 네트워크 구조에는 많은 수의 Dense Block이 포함되어 있습니다. 각 Dense Block은 서로 다른 수의 convolution 레이어로 구성되며 각 Dense Block은 전환 레이어로 연결됩니다. 첫 번째 레이어의 출력은 xl로 표시되고 비선형 변환 프로세스의 출력은 H1로 표시됩니다. 즉, H1의 입력은 x0이고 출력은 x1이고 H2의 입력은 x0과 x1입니다. 즉, 각 레이어의 입력은 모든 이전 레이어의 출력에서 나옵니다. DenseNet 및 ResNet에서 Xl의 표현은 (1)과 (2)에 나와 있습니다.

공식 (1)과 공식 (2)에서 DenseNet에서 레이어 l의 출력은 레이어 0에서 레이어 l-1로 채널이 병합 된 후 비선형 변환 (Hl)을 통해 얻어지는 반면 ResNet에서는 레이어 l의 출력은 레이어 l-1의 출력 값과 레이어 l-1의 비선형 변환 출력 값을 더하여 얻습니다. ResNet은 명백한 중복성을 가지고 있으며 각 계층에서 소수의 기능 만 추출됨을 알 수 있습니다. 반대로 DenseNet은 중복 기능 매핑을 배울 필요가 없지만 채널의 기능 연결을 통해 기능 재사용을 직접 실현하므로 적은 매개 변수와 계산으로 ResNet보다 더 나은 성능을 얻을 수 있습니다.

따라서 본 논문에서는 YOLO v3의 백본 네트워크에서 ResNet의 skip-layer 연결 구조를 대체하기 위해 고밀도 연결 구조를 사용했으며, 고밀도 연결 네트워크에는 Densenet-121 [27]을 선택했습니다. 조밀 한 연결 구조의 백본 네트워크는 레이어 간 최대 정보 전송을 보장하고 이전 컨볼 루션 레이어의 채널을 결합하여 기울기 소실 문제를 개선하고 더 많은 기능 정보를 더 잘 전달할 수있어 매개 변수 수를 줄입니다.

이를 바탕으로 풀링 작업에서 정보 손실 문제를 완화하기 위해 본 백서는 DenseNet-121을 더욱 최적화하여 FCN-DenseNet을 얻습니다. 구체적인 최적화 과정은 다음과 같습니다 : FCN-DenseNet의 4 개의 Dense Block은 서로 다른 수의 convolutional 모듈을 연결하여 형성됩니다 (그림 1 (a) 참조) .FCN-DenseNet의 구조는 단계를 조정하는 방법을 사용하여 조정됩니다. YOLO v3에서 다운 샘플링을 실현하는 크기입니다. 트랜지션 레이어의 풀링 레이어는 단계 크기가 2 인 3x3 컨볼 루션 레이어로 대체되어 풀링 레이어의 유용한 특징 정보 손실 문제를 효과적으로 해결합니다. 네트워크는 1x1 컨볼 루션 레이어를 보존하여 입력 특성 그래프의 수를 줄일뿐만 아니라 각 채널의 특성 융합을 실현합니다. FCN-DenseNet의 구조는 그림 3에 나와 있습니다.

2) IMPROVEMENT OF MULTI-SCALE PREDICTION MECHANISM

복잡한 시나리오에서 누락 및 오 탐지 문제의 주요 원인 중 하나는 대상 위치 오류입니다. 따라서 더 큰 얕은 피처 맵에는 더 많은 위치 정보가 포함되고 더 작은 딥 피처 맵에는 더 많은 의미 정보가 포함되어 있음을 고려하여 본 논문에서는 YOLO v3 네트워크의 다중 스케일 예측 메커니즘을 최적화하고 네 번째 감지의 다중 스케일 예측 메커니즘을 추가합니다. 층. 업 샘플링 후 작은 크기의 피처 레이어와 더 큰 크기의 피처 레이어를 연결하여 서로 다른 피처 레이어의 의미 정보와 위치 정보를 깊이 통합하여 네트워크의 타겟 위치 인식 정확도를 더욱 향상시킵니다. 구체적인 구현은 다음과 같습니다. 첫째, 세 번째 다운 샘플링으로 얻은 52x52 특징 맵을 두 번 업 샘플링 한 다음 두 번째 다운 샘플링에서 얻은 104x104 특징 맵과 병합하여 네 번째 스케일 검출 계층을 형성합니다.