기억의 기록(나의 기기)

[Data Preprocessing] Duplicate Cleaner 소개 및 사용법 본문

딥러닝

[Data Preprocessing] Duplicate Cleaner 소개 및 사용법

황경하 2024. 7. 3. 17:29
반응형

Data Preprocessing - Duplicate Cleaner 사용법

안녕하세요, 데이터 과학 전공 중인 황경하입니다.

오늘은 개인 프로젝트를 진행하면서 데이터 수집 과정에서 사용한 Duplicate Cleaner를 소개해보겠습니다.

 

Duplicate Cleaner 설명

Duplicate Cleaner는 한국어로 번역하면 중복 제거기입니다. (Duplicate: 중복, Cleaner: 제거기)

말 그대로, 이미지 데이터나 문서 등의 파일들의 중복 여부를 확인해 주고 유사하거나 똑같은 파일을 그룹별로 묶어주어 한눈에 볼 수 있도록 해줍니다. 그리고 중복된 문서를 체크하여 삭제하는 기능도 지원합니다! (삭제된 파일은 휴지통에 저장되기 때문에 복구도 가능합니다.)

 

저는 이 프로그램을 데이터셋을 생성하는 논문을 읽을 때 처음 접하였는데, 개인 프로젝트를 하다 데이터 중복을 검증해야 할 일이 생겨서 실제로 설치하여 사용해 봤습니다. 그런데, 정말 놀라울 정도로 빠르고 정확하더라고요. 저처럼 데이터를 이용한 프로젝트를 하시는 분이 아니더라도 중복으로 설치된 문서나 프로그램들도 확인 및 제거가 가능하니 알아두시면 유용할 것 같습니다.

 

아래 링크 걸어두겠습니다. 다만, 아쉬운 점은 제가 사용한 건 Pro 버전인데 일주일만 무료더라구요. 꼭 필요할 때 설치하시는 걸 추천드립니다.

 

설치 링크(광고 X): https://www.duplicatecleaner.com/

 

Duplicate Cleaner - Remove duplicate files

Find duplicate music You can scan and compare audio files using Duplicate Cleaner. Supported formats are MP3, OGG, WMA, M4A, M4P (iTunes), AAC, FLAC and WAV. Compare the same or similar music across different formats. Duplicate Cleaner will list details of

www.duplicatecleaner.com

 

Duplicate Cleaner 사용법

1) 검사 조건

: 설치 완료 후 실행 시키면 아래와 같은 화면이 나옵니다. 처음에는 검사 조건을 설정하고, 검사 위치 (=검사할 파일이 있는 폴더 위치)를 설정하고, 검사 후 중복 파일이 있다면 제거합니다. 저는 이미지를 검사할 것이기 때문에 이미지 모드로 설정하고, 사진 유사성을 1번으로 하여 완전히 일치하는 이미지만 중복으로 인식하는 가장 강력한 조건을 주었습니다.

 

실행 순서는 아래 빨간색펜으로 그린 화살표 모양입니다.

 

 

2) 검사 위치

: 검사 위치는 아래와 같이 본인이 검사할 파일의 위치를 설정하고 -> 표시를 클릭하여 추가합니다.

이후에 검사를 다 하면 <- 표시를 클릭하여 삭제할 수 있습니다. 위 과정을 반복하여 여러 파일을 검사합니다.

 

한 번에 많은 파일을 넣을 수 있지만, 그렇게 하면 성능이 떨어지더라고요. 귀찮겠지만, 하나씩 진행하시는 걸 추천드립니다.

 

 

3) 검사 시작

: 검사 시작을 누르면 아래와 같은 화면이 나옵니다. 보시는 것처럼 해당 폴더의 어떤 파일 형식이 있는지를 파이 차트로 보여주고, 몇 개의 파일이 중복되어 있는지를 알려줍니다. 1288개의 파일을 넣었는데, 36초밖에 걸리지 않았네요.

 

 

4) 중복 파일

: 중복 파일이 있다면, 검사 시작 버튼 옆에 "중복 파일"이라는 버튼이 하나 더 생기게 됩니다.

이 버튼을 클릭하면, 중복된 사진이 무엇인지 알 수 있습니다. 중복된 사진은 그룹으로 표시되어 같은 그룹 번호를 가진 이미지는 같은 사진임을 뜻합니다. 다만, 사진의 유사성을 판단하는 알고리즘이 어떻게 짜여있는지는 모르겠으나 결국 프로그램이 판별하는 것이다 보니 오류가 생길 수 있어 직접 더블클릭하여 확인해 보는 것이 좋습니다.

 

그리고, 빨간색 박스로 표시한 "그룹별에 의한 체크"를 눌러 그룹별로 중복된 이미지를 하나씩 선택합니다.

 

5) 파일 제거

: 휴지통 모양 버튼을 클릭합니다. 저는 이전 단계에서 2개의 파일이 중복되어 있다고 떴기 때문에 확인 후 체크해 주었습니다. 이제 파일 삭제를 눌러 중복 파일을 삭제합니다.

 

이렇게 진행한 경우, 삭제한 파일은 휴지통에 보관되며 로컬 컴퓨터에는 중복이 삭제된 상태로 저장됩니다.

 

 

Insight
: CarDD (Car Damage Detection)에 관한 논문을 읽다가 나온 Duplicate Cleaner라는 프로그램을 사용해봤다. 중복된 파일을 정확히 찾아내는 것이 너무 신기했다. 동시에 어떠한 알고리즘을 사용했을까를 생각해봤는데, 유료 프로그램이다 보니 정확히 나오지는 않는다. 다만, 추측컨대 하나의 사진과 여러 사진들 사이에 코사인 유사도를 구하고 그 값이 거의 0이면 같은 사진으로 판단하는 것이 아닐까 하는 생각이 든다. 또한, 이 논문을 읽기 전에는 프로젝트를 위해 제공받은 데이터셋을 그대로 사용하려고 했다. 그러나, 시험 삼아 사용해본 Duplicate Cleaner에서 약 36장의 중복 사진이 발견되었다. 해보지 않았다면, 그대로 중복 사진을 써서 모델의 성능을 과대추정했을 텐데, 다행이다. 이번 일을 계기로 Vision Project를 한다면, 반드시 먼저 검사해볼 것 같은데 이 프로그램이 일주일만 무료인 점이 너무나 아쉽다.. 유사한 무료 프로그램들도 찾아볼 필요가 있다.

마치며..

오늘은 이렇게 간단히 중복 파일을 제거하는 프로그램을 소개해봤습니다.

Computer Vision 프로젝트를 하다 보면, 데이터를 제공받아도 한 번씩 체크하는 습관을 기르시는 게 좋습니다. 데이터의 중복은 단순 메모리 공간의 차지보다도 모델이 다양한 이미지의 특성을 학습하는 것을 방해할 수 있기 때문입니다. 크롤링하여 얻은 데이터라면 더욱 필수적으로 거쳐야 하는 단계이구요. 실제 코드로 구현하거나 하나하나 다 확인하여 삭제한다면, 매우 오랜 시간이 걸렸겠지만 이 프로그램을 이용하여 5분 만에 삭제할 수 있었습니다. 무료 프로그램이었으면, 얼마나 좋았을까 ..

 

오늘도 읽어주셔서 감사합니다.

반응형