우리는 이미지에서 성능이 발생하는 위치에 초점을 맞춘 자동차 애플리케이션을위한 기계 학습 (ML) 알고리즘의 성능에 대한 새로운 메트릭 공간 리콜 인덱스를 제시합니다. IoU (Intersection-over-union), 정밀도-재현율 (precision-recall-curves) 또는 평균 정밀도 (AP)와 같은 일반적인 메트릭은 전체 이미지 데이터베이스에 대한 성능을 정량화하여 이미지에서 성능이 발생하는 위치 (또는 오히려 그렇지 않은 경우)를 무시합니다. 그러나 카메라 시스템의 광학은 시야각에 걸쳐 항상 공간적으로 가변적이며 ML 기반 알고리즘의 성능에 영향을 미칩니다. 우리는 난시 및 색수차와 같은 일반적인 광학 수차를 나타내는 Cooke-triplet을 기반으로 실제적인 대물 렌즈를 시뮬레이션합니다. 특수 픽셀 기반 컨볼 루션을 사용하여 BDD100k 데이터 세트의 이미지 하위 집합을 저하시키고 사전 훈련 된 HTC (Hybrid Task Cascade) 및 Mask R-CNN 알고리즘의 성능 변화를 정량화합니다. 이미지에서 이러한 변화가 발생하는 위치를 픽셀 단위로 공간적으로 확인하는 SRI (Spatial Recall Index)를 제시합니다. 우리의 예는 필드에 대한 광학 품질에서 성능의 공간적 의존성을 보여 주며, 특히 자율 주행 애플리케이션을 기대할 때 ML 기반 알고리즘을 훈련 할 때 공간 차원을 고려해야 할 필요성을 강조합니다.
자동차 애플리케이션을위한 기계 학습 알고리즘의 성능은 학습 및 검증 중에 사용되는 입력 이미지의 이미지 품질에 크게 좌우됩니다. 그럼에도 불구하고 이미지 품질과 알고리즘 성능을 연결하는 어려운 주제는 지난 몇 년 동안 학문적 및 산업적 관심을 끌기 시작했습니다. 우리의 작업 그룹에서 우리는 ML 기반 컴퓨터 비전 알고리즘에 대한 광학 시스템의 영향을 연구하여 이미지 품질과 성능 간의 연결을 가능하게하는 프로세스를 개발하려고합니다.
한 가지 중요한 단계는 애플리케이션 용 이미지가 기록되는 대물 렌즈의 품질과 시뮬레이션의 렌즈 모델입니다. 모든 광학 시스템은 공간적으로 변형됩니다. 즉, 수차 측면에서 광학 품질은 시야에 따라 다릅니다. 방대한 양의 이미지로 학습 된 ML 기반 알고리즘의 경우 종종 학습 중에 이미지 품질이 학습 된 것으로 암시 적으로 가정되지만 이것이 유지되지 않는 두 가지 관련 상황이 있습니다 .a) 시뮬레이션은 렌즈와 다른 렌즈 모델을 특징으로합니다. 실제 제품의 수차, b) 모든 실제 렌즈에는 교육 데이터 세트에있는 수차와 다른 수차에 대한 생산 허용 오차가 있습니다.
a) 사실적 렌즈 모델과 물리적 사실적 렌즈 모델간에 중요한 차이가 있다는 점에 주목할 필요가 있습니다. 사실적은 사람의 관찰자에게보기 좋게 보이지만 렌즈 모델은 생산 된 실제 렌즈의 실제 측정 된 광학 수차를 나타내지 않습니다. 실사 모델을 사용하여이 시뮬레이션 된 데이터에 대해 훈련 된 ML 기반 알고리즘은 비현실적인 시뮬레이션 모델에 존재하는 특성과 수차를 학습하며 이는 실제 카메라 시스템을 대표하지 않습니다. 이것이 우리가 실제 측정 된 렌즈 [8, 9]의 필드에 대한 모든 수차 세부 사항을 사실적으로 시뮬레이션하는 물리적 사실적인 렌즈 모델을 연구하는 이유입니다.
인수 b) (생산 공차)의 관련 측면은 생산 된 카메라 시스템의 전체 세트에 대한 수집 카메라 시스템의 통계적 표현입니다. 실제 자동차 카메라 프로젝트에는 매년 수십만 개의 카메라 시스템 (또는 그 이상)이 생산 될 수 있습니다. 그럼에도 불구하고 주행 장면을 기록한 테스트 차량의 수는 주요 대륙에 분포 된 수십 대 정도의 차량입니다. 따라서 기록 된 드라이브 장면은 광학 품질 측면에서 전체 생산 배치를 나타낼 수 없으며 광학 수차의 가변성은 교육 데이터 세트에 존재하지 않습니다. 이 상황을 개선하기위한 한 가지 접근 방식은 뚜렷하고 관련성있는 수차가있는 특수 카메라 시스템을 생성하고 이러한 기록을 사용하여 교육 데이터 세트의 통계적 중요성을 개선하는 것입니다 (광학 가변성 측면에서). 이것은 우리의 주요 주장을 바꾸지 않습니다. 씬 커버리지와 허용 오차 표현 사이의 균형이기도합니다.
ML 기반 알고리즘의 성능에 대한 광학 품질의 영향을 측정하기위한 첫 번째 단계로 알고리즘 성능이 발생하는 시야를 공간적으로 확인하는 새로운 메트릭을 개발했습니다. 이 메트릭은 광학 품질과 무관하며 훈련 이미지의 내용이 모든 종류의 공간 의존성을 나타내는 모든 상황에 사용할 수 있습니다. 이 새로운 측정법의 사용을 입증하기 위해 우리는 Zernike 다항식에 기반한 물리적 현실적 광학 모델을 사용하여 BDD100k 데이터베이스 [17]에서 많은 수의 이미지를 저하 시켰습니다. 몇 가지 확립 된 탐지 알고리즘 [2, 7]을 사용하여 전통적으로 그리고 새로운 접근 방식으로 이러한 알고리즘의 성능을 측정했습니다. 마지막으로 공간적으로 해결 된 메트릭은 시뮬레이션 된 렌즈의 광학 성능과 비교할 수 있습니다. 광학 성능은 RMS 파면 오류와 FWHM 맵으로 제공됩니다.
이 기사는 다음과 같이 구성됩니다. 먼저 새로운 메트릭을 소개합니다. 그런 다음 Cooke-triplet의 물리적 현실적 렌즈 모델을 기반으로 공간 변형 이미지 저하를 설명합니다. 이를 위해 다양한 광학 메트릭 측면에서 렌즈 모델의 성능을 정량화합니다. defocus 매개 변수는 알고리즘 성능 저하를 비교할 수있는 기술적 매개 변수로 모델에 도입되었습니다.
Pezzementi et al. [13] 이미지 조작과 NREC Agricultural Person Detection Dataset에 대한 사람 탐지기의 성능에 미치는 영향을 일반적인 메트릭으로 조사합니다. 그들은 "Simple Mutators"Gaussian blur, Gaussian Noise 및 Alpha-Blend, 그리고 "Contextual Mutators"헤이즈 및 디 포커스의 영향을 특정 렌즈 모델이 적용되지 않은 일반적인 디 포커스 PSF 모델로 조사합니다. ADR (Average Detection Rate)로 성능 저하 가능성을 판단합니다. 그러나 우리는 Zernike 계수를 기반으로 한 광학 모델을 사용하고 Zernike Space에서 defocus를 도입합니다. 또한 SRI (Spatial Recall Index)를 사용하여 로컬 기반으로 성능을 평가합니다.
[14]에서 Saad와 Schneider는 KITTI 데이터베이스에서 DNN (Deep Neural Network) 기반 물체 탐지기의 성능에 대한 비네팅의 영향을 고려합니다. 가상 KITTI (VKITTI) 데이터 세트에서 DNN을 훈련하고 추가로 VKITTI 데이터 세트에 비네팅 모델을 적용하여 증강 된 VKITTI 데이터 세트를 생성합니다. 또한 평균 평균 정밀도를 사용하여 KITTI 데이터베이스의 실제 이미지에서 고유 한 훈련 된 알고리즘을 비교합니다. 또한 이미지 너비와 관련하여 감지 된 모든 차량에 대한 비네팅과 로컬 감지 차량의 비율 간의 상관 관계를 보여줍니다. 위치 종속성을 설명하기 위해 경계 상자 질량 중심을 사용합니다.

공간적으로 변화하는 광학 성능과 물체 감지 시스템의 성능 간의 상관 관계를 조사하려면 물체 감지 성능의 공간적 변화를 정량화해야합니다. 첫째, 다음과 같이 정의 된 잘 알려진 회상 값 [3]의 정의를 회상합니다 (말장난 의도 없음).

여기서 TP 및 FP는 각각 특정 데이터베이스에 대한 참 및 거짓 긍정입니다. 분모는 모든 지상 진실 객체 GT의 수를 나타냅니다. 유사한 방식으로 우리는 이제 SRI (Spatial Recall Index)라고하는 "로컬"성능 지수를 제안합니다.

여기서 (x, y)는 이미지의 픽셀 위치이고 GTn, TPn은 Ground Truth 데이터의 n 번째 경계 상자와 True Positive로 레이블이 지정된 예측 경계 상자입니다. 식. 2는 그림 1에서 시각화됩니다.
공간 리콜 인덱스를 적용하기 위해 특정 IoU 임계 값 아래의 경계 상자를 제거하고 모든 예측 경계 상자 집합에서 참 양성 TP를 얻기 위해 FPPI 대비 미스 비율을 기반으로 점수를 매 깁니다. 이제 식에 정의 된대로 참 양성으로 레이블이 지정된 예측 경계 상자의 나머지 하위 집합에서 인덱스를 평가할 수 있습니다. 2 : 각 True Positive TPn에 대한 픽셀 (x, y)에서 SRI를 얻기 위해 해당 경계 상자와 Ground Truth 경계 상자 GTn의 교차가 평가됩니다. 유효한 픽셀 집합을 정의하기 위해 전체 경계 상자 대신 교차점을 사용합니다. 픽셀 (x, y)이 교차점 안에 있으면 인덱스에 포함되고 그렇지 않으면 아무것도 추가되지 않습니다. 이렇게 획득 한 지명자 값은 픽셀에서 겹치는 Ground Truth 경계 상자의 총 수에 의해 가중치가 부여됩니다. 이것은 (x, y) 위치에서 공간 재 호출 지수를 산출하며, 특정 이미지 영역에서 객체를 올바르게 찾을 수있는 "확률"입니다. 인덱스는 몇 가지 기본 속성을 충족합니다. 이상적인 검출기는 각 픽셀에서 인덱스 SRI (x, y) = 1이고 아무것도 감지되지 않은 경우 SRI (x, y) = 0입니다.