Blog do Julio

Hacks, tutoriais e dicas

Encontrar Arquivos Duplicados

| Comments

Após olhar

Fdupes

Instale o fdupes: julio@acer ~> sudo pacman -S fdupes

Rode o fdupes no modo recursivo (-r) e direcione a saída para um arquivo: julio@acer ~/Documentos/Ebooks> fdupes -r . > dupes1.txt No meu computador, esse comando demorou apenas 7min para analisar 23500 arquivos. O arquivo de saída, dupes1.txt, tinha 5714 linhas!

julio@acer ~/Documentos/Ebooks> fdupes -rf . > dupes2.txt

Demorou uns 7min para analizar 23500 arquivos. dupes2.txt: 3878 linhas

Removendo as linhas em branco do dupes2.txt usando sed -i '/^$/d' dupes2.txt, o arquivo ficou com 2054 linhas.

Muitos dos arquivos que ele reconheceu como duplicados eram idênticos propositalmente. Exemplos de livros de programação muitas vezes são repetidos. Alguns arquivos de controle de versão (git, svn, etc) foram reconhecidos como repetidos, mas não devem ser excluidos

Se quiser reduzir o espaço gasto em disco, mas evitar quebrar qualquer coisa, da para criar um script que substitua todos os arquivos duplicados por hardlinks.

Delete todos os arquivos duplicados (cuidado com esse script): julio@acer ~/Documentos/Ebooks> while read f; do rm “$f”; done < dupes2.txt

Comments