Encontrar arquivos duplicados

Julio Batista Silva

Sep 10, 2012 2 min read

Arquivos duplicados ocupam espaço desnecessário no disco. Felizmente existem ferramentas que automatizam a busca por duplicados.

Fdupes

Instale o fdupes:

julio@acer ~> sudo pacman -S fdupes

Rode o fdupes no modo recursivo (-r) e direcione a saída para um arquivo:

julio@acer ~/Documentos/Ebooks> fdupes -r . > dupes1.txt

No meu computador, esse comando demorou apenas 7min para analisar 23500 arquivos. O arquivo de saída, dupes1.txt, tinha 5714 linhas!

julio@acer ~/Documentos/Ebooks> fdupes -rf . > dupes2.txt

Demorou uns 7min para analizar 23500 arquivos. dupes2.txt: 3878 linhas

Removendo as linhas em branco do dupes2.txt usando sed -i '/^$/d' dupes2.txt, o arquivo ficou com 2054 linhas.

Muitos dos arquivos que ele reconheceu como duplicados eram idênticos propositalmente. Exemplos de livros de programação muitas vezes são repetidos. Alguns arquivos de controle de versão (git, svn, etc) foram reconhecidos como repetidos, mas não devem ser excluidos

Se quiser reduzir o espaço gasto em disco, mas evitar quebrar qualquer coisa, da para criar um script que substitua todos os arquivos duplicados por hardlinks.

Delete todos os arquivos duplicados (cuidado com esse script):

julio@acer ~/Documentos/Ebooks> while read f; do rm "$f"; done < dupes2.txt

Gemini

Uma boa alternativa paga para o Mac é o Gemini, que lista todos os duplicados em uma interface amigável e permite visualizá-los antes de mandá-los para a lixeira.

Julio Batista Silva

Data Engineer

I’m a computer engineer passionate about science, technology, photography, and languages. Currently working as a Data Engineer in Germany.