현재 교통 시나리오에서 보행자 및 차량의 물체 감지는 복잡하고 비용이 많이 드는 경향이있어 알고리즘의 신뢰성과 실행 가능성에 큰 도전이되고 있습니다. 이러한 문제에 대응하여 본 논문에서는 YOLOv3 기반의 개선 된 알고리즘을 제안한다. 첫째, 피처 추출 계층에서 기본 피처의 매핑 방법을 개선하고 네트워크의 다른 부분의 필요에 따라 해당 컨볼 루션 계산 전략을 선택합니다. 둘째, 다차원 복합 표적 예측에서 정보 불균형 문제를 해결하기 위해 특징 피라미드 네트워크 구조를 기반으로 특징 융합 전략을 개선한다. 원래 구조와 비교할 때 향상된 네트워크 훈련에 필요한 매개 변수의 양이 약 34 % 감소했습니다. 그런 다음 Kmeans 클러스터링 알고리즘의 클러스터링 거리 공식을 개선하여 종횡비와 사전 감지 영역의 순서를 적응 적으로 결정합니다. 기존 알고리즘에 비해 VOC 데이터 셋에서 보행자 감지 AP는 7.91 %, 차량 감지 AP는 8.81 %, mAP는 6.46 % 개선되었다. 소규모 탐지 작업에서 보행자 탐지 AP는 17.32 %, 차량 탐지 AP는 19.21 %, mAP는 17.99 % 증가했다.
Convolution neural network, target recognition, feature extraction, improved YOLOv3 algorithm, complex traffic scene.
최근 몇 년 동안 인공 지능 및 컴퓨터 비전 관련 분야는 점차 자동차 산업의 뜨거운 연구 방향이되었습니다. 시각 보조를 기반으로 한 차량 지능형 환경 인식 기술은 차량의 주행 안전성을 높이기위한 것으로, 자율 주행 기술의 완전한 실현에 큰 의미가 있습니다. 교통 환경의 복잡성과 불확실성으로 인해 환경 인식 알고리즘의 정확성과 신뢰성이 요구됩니다. 현재 딥 러닝의 급속한 발전과 함께 이미지 인식에 컨볼 루션 신경망이 널리 사용되고 있습니다. 기존 감지 방법에 비해 인공 지능 알고리즘을 기반으로 한 이미지 인식 기술은 더 높은 감지 정확도, 더 나은 환경 적응성 및 더 나은 실행 가능성을 가지고 있습니다. 따라서 인공 지능 알고리즘을 기반으로 한 이미지 인식 기술은 점차 기존의 탐지 방법을 대체 할 것입니다. CNN (Convolution Neural Network)은 컨볼 루션 계산을 기반으로 기능 정보를 추출하는 다층 인공 신경망입니다. 데이터 세트를 학습함으로써 CNN은 감지 할 대상 특징을 자율적으로 학습하고 모델의 성능을 점진적으로 향상시킬 수 있습니다. CNN 기반 이미지 인식 방법은 크게 두 가지 범주로 나눌 수 있습니다. 하나는 R-CNN [1], Fast-RCNN [2], Faster-RCNN [3]과 같은 2 단계 표적 탐지 알고리즘을 기반으로합니다. 다른 하나는 YOLOv3 [4], SSD [5] 등과 같은 단일 단계 표적 탐지 알고리즘입니다.
우선, 딥 러닝 알고리즘은 높은 수준의 하드웨어 컴퓨팅 및 처리를 필요로하며 기존의 컨볼 루션 신경망은 일반적으로 중복 구조와 너무 많은 매개 변수를 가지고 있습니다. 현재 학자들은 이러한 문제를 해결하기 위해 신경망의 구조를 개선하는 방법을 널리 사용하고 있습니다. 일부 학자들은 YOLOv3-Tiny 네트워크 [6]를 탐지에 사용하는데, 백본 레이어는 7 개의 레이어 컨볼 루션 네트워크를 채택하고 2 개의 스케일 예측 레이어 만 유지하므로 인식 효율성이 크게 향상되지만 탐지 정확도가 심각하게 저하된다는 단점이 있습니다. . 그 후 일부 학자들은 YOLOv3 작은 알고리즘을 기반으로 네트워크 깊이를 심화하기 위해 회선 계층을 추가하여 인식 정확도를 향상 시켰지만 작은 대상에 대한 탐지 정확도는 여전히 낮습니다 [7]. Yiting Li 등은 기존의 컨볼 루션 연산자 대신 심도 분리 가능한 컨볼 루션을 사용하여 향상된 SSD 감지 알고리즘을 채택하여 학습 시간을 단축했습니다 [8]. ShuffleNet [9]은 패킷 포인트 컨볼 루션과 셔플 된 채널 작업을 채택하여 컴퓨팅 비용을 절감하고 네트워크의 학습 능력을 향상시킬 수 있습니다. Mengjia Yan은 가변 그룹 컨볼 루션 방법을 활용하여 컨볼 루션 효율을 향상 시켰고, 각도 추출 손실의 동등성을 사용하여 목적 함수 훈련 알고리즘을 설정했습니다. 실험은 실시간 성능이 더 좋았다는 것을 보여줍니다 [10]. Law는 향상된 CornerNet을 기반으로하는주의 메커니즘을 사용하여 탐지 정확도를 유지하고 매개 변수를 줄였습니다 [11]. 따라서 제한된 하드웨어 조건에서 네트워크 성능을 향상시키고 정확도에 영향을주지 않으면 서 네트워크 매개 변수를 줄이는 것이 현재 연구의 초점입니다.
또한, 다중 스케일 복합 표적 인식은 컴퓨터 비전 분야의 도전이며 복잡한 장면에서 작은 픽셀 크기 표적에 대한 일반적인 인식 알고리즘의 검출 효과는 일반적으로 이상적이지 않습니다. 예를 들어, 차량이 안개, 비, 야간 주행시 알고리즘의 지각 인식 효과에 영향을 미칩니다. 따라서 복잡한 장면에서 물체의 거리로 인한 작은 크기, 겹치는 폐색 및 배경 물체 간섭의 영향을 합리적으로 제거하는 것도 고려되어야 할 문제이다. 모란주는 원래 신경망에 새로운 convolution layer를 추가하여 작은 크기의 트래픽 타겟 탐지 알고리즘을 설계했으며 실험 효과가 더 좋았습니다 [12]. ChoJiwoong Cho는 Gaussian 함수를 사용하여 신경망 모델의 손실 함수를 재정 의하여 성능을 향상 시켰습니다. 복잡한 환경에서 알고리즘의 견고성 [13] .Wang, Y.는 저조도 조건에서 보행자 감지 효과가 좋은 피처 레벨 융합 및 공유 메커니즘을 갖춘 새로운 멀티 태스킹 학습 방법을 제안했습니다 [14]. 개선 된 Kmeans 클러스터링 알고리즘을 사용하여 사전 훈련 조건을 설정하고 개선 된 다중 스케일 경계 상자를 기반으로 수용 필드를 증가시켜 복잡한 장면에서 보행자 감지 효과를 효과적으로 개선했습니다 [15]. 수용 필드는 컨볼 루션 신경망의 각 계층의 특징 맵에서 픽셀로 매핑 된 입력 이미지의 영역 크기를 나타냅니다. P. Navarro는 시각적 감지를 기반으로 보행자의 3D 포인트 클라우드 정보를 분석하고 다양한 기계 학습 알고리즘과 결합하여 고화질 3D 결과를 얻었으며 감지 효과는 기존 방법보다 우수했습니다 [16]. 고밀도 연결 모듈은 원래 신경망에 도입되고 침투 계층은 얕은 컨볼 루션 계층을 융합하여 세밀한 특징을 얻기 위해 사용되며, 이는 대상 탐지 알고리즘의 성능을 향상시킵니다 [17] W. Wu는 단일 스케일 기능을 사용했습니다. 원래 네트워크의 다중 스케일 예측을 대체하기위한 매핑으로 계산을 저장했을뿐만 아니라 어느 정도 오 탐지를 피했습니다 [18]. Q. Xu는 YOLOv3 기능 추출 네트워크를 개선하고, 불필요한 정보를 제거하고 네트워크 처리 효율성을 향상시키기 위해 컨볼 루션 신경망 구조에주의 메커니즘을 적용했습니다 [19].
현재의 인식 알고리즘은 일반적으로 복잡한 교통 배경에 적응할 수 없으며, 표적 인식의 오 탐지율과 누락 된 탐지율을 줄이고 알고리즘의 정확도를 향상시키는 것이 학자들이 시급히 해결하고자하는 문제입니다. 이동하는 보행자의 재 식별 문제에 대해 Z. Zhong은 카메라 불변, 인접 불변 및 강도 불변에 기반한 감지 모델을 제안했는데, 이는 더 효과적입니다 [20]. 보행 자세, 주변 조명, 배경 요인 문제를 해결하기 위해 X. Sun은 생성 된 3D 데이터를 기반으로 보행자 회전 각이 인식 정확도에 미치는 영향을 정량적으로 분석하였으며, 개선 된 방법은 정확도가 더 높습니다 [21]. J. Meng은 보행자 인식을 다중 인스턴스 및 다중 레이블 학습 문제로 변환하는 약하게 감독되는 보행자 재 식별 기반 접근 방식을 제안하여 동일한 보행자 인식에 대해 서로 다른 카메라의 태그 비용을 효과적으로 줄였습니다 [22]. L. Xie는 선택적 표적 인식을 위해 인간의 눈을 모방하기 위해 신경망에주의 메커니즘을 추가하여 계산 오버 헤드를 효과적으로 줄이고 탐지 정확도를 향상시킬 수 있습니다 [23]. H. Ullah는 오 탐지율이 낮고 탐지율이 누락 된 이동 보행자의 탐지 및 위치를 파악하기 위해 Gaussian 함수를 기반으로 한 앙상블 모델을 제안했습니다 [24]. 교통 배경에서 모바일 차량 감지를 위해 Shin-Ting은 KNN 알고리즘과 결합 된 Haar 웨이블릿 변환을 사용하여 차량 특징 추출 및 표적 분류를 수행했습니다 [25]. M. G. Griese는 지능형 교통 시스템의 적용에 적합한 차량 식별을 위해 RFID와 저전력 네트워크를 사용할 것을 제안했습니다 [26]. W. Yan은 지루한 훈련 과정이 필요하지 않은 희소 표현 분류기를 사용하는 이동 차량 인식 기술을 제안했습니다 [27]. S. T. Jeng은 Kmeans 클러스터링 알고리즘과 의사 결정 트리 알고리즘을 결합하여 휴대 성이 좋은 빠른 차량 분류 감지 방법을 설계했습니다 [28].
본 논문에서는 복잡한 차량 감지 대상 및 높은 인식 계산 비용 문제를 해결하기 위해 YOLOv3 네트워크를 개선합니다. 두 번째 섹션에서는 먼저 YOLOv3의 네트워크 구조를 소개합니다. 그런 다음 특성 추출 네트워크가 개선되어 매개 변수를 최적화하고 특성 추출 성능을 향상시킵니다. 동시에 딥 및 얕은 피처 레이어 간의 정보 불균형 문제를 해결하고 네트워크의 의미 정보 및 위치 정보 강도를 효과적으로 높이기 위해 합리적인 피처 융합 전략이 설계되었습니다. 세 번째 섹션에서는 개선 된 Kmeans 클러스터링 알고리즘을 사용하여 사전 훈련 매개 변수를 설정하여 예측과 실제 주석 정보 간의 일치 오류를 줄이고 알고리즘의 목표 예측 계산 프로세스를 명확히합니다. 정의 된 손실 함수에 따라 동적 최적화 훈련을 통해 최적의 표적 탐지 모델을 얻습니다. 네 번째 섹션에서는 정량적, 정 성적 분석을 통해 개선 된 네트워크를 원래 네트워크와 비교하여 제안 된 알고리즘의 우월성을 입증하고, 제안 된 알고리즘은 원래 알고리즘과 비교하여 매개 변수의 양을 약 34 % 감소 시켰습니다. 계산 효율성이 향상됩니다. 동시에 실험 테스트를 통해 교통 현장, 특히 복잡한 작은 표적 장면에서 오 탐지율이 낮고 감지 실패율이 낮습니다.
YOLOv3 (v3)는 빠른 감지 속도와 강력한 휴대 성이라는 장점이있는 종단 간 지능형 물체 감지 알고리즘입니다. 현재 산업 및 컴퓨터 비전에서 널리 사용됩니다. YOLOv3는 컨볼 루션 신경망을 기반으로 설계된 DarkNet53을 특징 추출 네트워크로 사용합니다. 네트워크는 53 개의 컨볼 루션 계층으로 구성되어 있으며 각 계층은 주로 1x1 및 3x3의 컨볼 루션 커널을 갖는 컨볼 루션 연산자로 구성되며 네트워크의 주요 부분은 5 개의 잔여 블록 (Resblock) 구조를 채택합니다. 마지막으로 다운 샘플링 배수가 2, 4, 8, 16, 32 인 피처 레이어가 차례로 출력되고 FPN (피쳐 피라미드 네트워크) 구조를 사용하여 정보가 전송되는 3 개의 유효 피처 레이어를 업 샘플링하고 융합합니다. 다양한 크기의 타겟을 감지하기 위해 예측 레이어에 추가합니다. YOLOv3의 원래 네트워크 구조는 그림 1에 나와 있습니다.

원래 알고리즘에서는 DarkNet 구조를 주로 그림 2 (a)의 ResNet (Residual Convolution Connection Net) 구조를 채택한 특성 추출 네트워크에 적용하고 내부 잔차 블록은 점프 연결을 채택하여 네트워크 특성을 나타냅니다. 간단한 구조와 많은 계산 매개 변수로 네트워크를 경량화하고 특징 추출 능력을 향상시키기 위해 본 논문에서는 새로운 특징 추출 네트워크를 설계하고이를 DBFENet (Double Branch Feature Extraction Net)이라고합니다. 그림 2 (b)에서 볼 수 있듯이 DBFENet은 기본 기능을 두 부분으로 매핑합니다. 한 부분은 분기 1의 ResBlock 모듈의 여러 잔차로 뒤섞이고 다른 분기는 부분 조밀 블록의 출력과 직접 연결됩니다. 다중 분기 특징 추출 네트워크 구조는 매개 변수의 반복적 인 사용을 피하고 네트워크의 깊이를 심화 시키며 네트워크의 학습 능력을 향상시킬 수 있습니다 [29].
