Tìm và loại bỏ các tập tin trùng lặp trong Linux
Có vẻ như không cần thiết phải lo lắng về các tệp trùng lặp khi bạn có terabyte bộ nhớ. Tuy nhiên, nếu bạn quan tâm đến tổ chức tệp, bạn sẽ muốn tránh trùng lặp trên hệ thống Linux của mình. Bạn có thể tìm và xóa các tệp trùng lặp thông qua dòng lệnh hoặc bằng ứng dụng dành cho máy tính để bàn chuyên dụng.
Sử dụng lệnh "Tìm"
Trong trường hợp bạn không quen thuộc với lệnh mạnh mẽ này, bạn có thể tìm hiểu về nó trong hướng dẫn của chúng tôi. Bằng cách kết hợp find
với các lệnh Linux cần thiết khác, như xargs, chúng ta có thể nhận danh sách các tệp trùng lặp trong một thư mục (và tất cả các thư mục con của nó). Lệnh đầu tiên so sánh các tệp theo kích thước, sau đó kiểm tra các băm MD5 của chúng, đó là các bit thông tin duy nhất về mọi tệp. Để quét các tệp trùng lặp, hãy mở bảng điều khiển của bạn, điều hướng đến thư mục mong muốn và nhập:
find-not -empty -type f -printf "% s \ n" | sắp xếp -rn | uniq -d | xargs -I {} -n1 tìm-type f -ize {} c -print0 | xargs -0 md5sum | sắp xếp | uniq -w32 --all-repeat = riêng biệt
Điều này một lớp lót làm như sau:
find -not -empty -type f -printf "%s\n"
- tìm các tệp thông thường không trống và in kích thước của chúng. Nếu bạn quan tâm đến tổ chức tệp, bạn có thể dễ dàng tìm và xóa các tệp trùng lặp thông qua dòng lệnh hoặc bằng ứng dụng dành cho máy tính để bàn chuyên dụng.
sort -rn
- sắp xếp các kích thước tệp theo thứ tự ngược lại.
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0
- chỉ in các dòng trùng lặp. Trong trường hợp này, tên của các tệp trùng lặp.
xargs -0 md5sum | sort |
- sắp xếp băm MD5 của các tệp được quét.
uniq -w32 --all-repeated=separate
- so sánh 32 ký tự đầu tiên của băm MD5 và in các ký tự trùng lặp.
Lưu ý rằng lệnh này không tự động loại bỏ các bản sao - nó chỉ xuất ra một danh sách, và bạn có thể xóa các tập tin theo cách thủ công nếu bạn muốn. Nếu bạn muốn quản lý các tệp của mình trong một ứng dụng cung cấp nhiều tùy chọn hơn cùng một lúc, giải pháp tiếp theo có thể phù hợp với bạn.
Sử dụng dupeGuru
DupeGuru là một ứng dụng đa nền tảng có ba phiên bản: Standard (SE), Music and Picture. Nó được thiết kế để tìm các tệp trùng lặp dựa trên nhiều tiêu chí (tên tệp, kích thước tệp, băm MD5) và sử dụng kết hợp mờ để phát hiện các tệp tương tự. Người dùng Windows và OS X có thể tải xuống các tệp cài đặt từ trang web chính thức và người dùng Ubuntu có thể lấy dupeGuru từ kho lưu trữ:
sudo add-apt-repository ppa: hsoft / ppa sudo apt-get cập nhật sudo apt-get cài đặt dupeguru
Để tìm kiếm các bản sao, trước tiên hãy thêm một số thư mục bằng cách nhấn nút “+”. Đặt trạng thái thư mục thành "Tham chiếu" có nghĩa là nội dung của các thư mục khác được so sánh với nó. Trước khi nhấp vào “Quét”, hãy chọn hộp thoại “Xem -> Tuỳ chọn” để đảm bảo mọi thứ được thiết lập đúng.
Nếu bạn quan tâm đến tổ chức tệp, bạn có thể dễ dàng tìm và xóa các tệp trùng lặp thông qua dòng lệnh hoặc bằng ứng dụng dành cho máy tính để bàn chuyên dụng.
“Loại quét” thay đổi theo các phiên bản dupeGuru; trong Standard, bạn có thể so sánh các tệp và thư mục theo nội dung và tên tệp. Phiên bản hình ảnh cung cấp so sánh bằng dấu thời gian EXIF và "Hình khối" - một tùy chọn tốn thời gian phân chia từng bức ảnh thành lưới và tính màu trung bình cho mỗi ô. Trong ấn bản Music, bạn có thể phân tích “Fields”, “Tags” và “Audio content”. Một số cài đặt phụ thuộc vào loại quét: “Word weighting” và “Match similar words” chỉ hoạt động khi bạn tìm kiếm tên tập tin. Ngược lại, “Độ cứng lọc” không áp dụng khi bạn thực hiện quét “Nội dung”.
DupeGuru có thể bỏ qua các tệp nhỏ và các liên kết (các lối tắt) đến một tệp và cho phép bạn sử dụng các biểu thức chính quy để tùy chỉnh thêm truy vấn của mình. Bạn cũng có thể lưu kết quả tìm kiếm để hoạt động sau này. Người hâm mộ Apple sẽ thích thực tế là dupeGuru hỗ trợ các thư viện iPhoto và Aperture và có thể quản lý các thư viện iTunes.
Khi dupeGuru tìm thấy các bản sao, một cửa sổ mới sẽ mở ra với các tệp tham chiếu có màu xanh dương và các bản sao của chúng được liệt kê bên dưới. Thanh công cụ hiển thị thông tin cơ bản và bạn có thể xem thêm về mọi tệp nếu bạn chọn tệp đó và nhấp vào nút “Chi tiết”.
Bạn có thể quản lý các tệp trùng lặp trực tiếp từ dupeGuru - menu "Tác vụ" hiển thị mọi thứ bạn có thể làm. Chọn tệp bằng cách đánh dấu vào hộp kiểm hoặc nhấp vào tên của chúng; bạn có thể chọn tất cả hoặc nhiều tệp bằng phím tắt (giữ Shift / Ctrl và nhấp vào tệp mong muốn). Nếu bạn quan tâm đến sự khác biệt giữa các tệp trùng lặp, hãy chuyển đổi Giá trị Delta. Các kết quả có thể được ưu tiên lại (vì vậy các tệp được liệt kê dưới dạng hai chiều trở thành tham chiếu) và được sắp xếp theo các tiêu chí khác nhau như ngày sửa đổi và kích thước. Hướng dẫn sử dụng chính thức của dupeGuru là hữu ích và được viết rõ ràng, vì vậy bạn có thể dựa vào nó nếu bạn gặp khó khăn.
Đương nhiên, nó sẽ là thực tế hơn nếu dupeGuru không được chia thành ba phiên bản - sau khi tất cả, hầu hết người dùng yêu các giải pháp một cửa. Tuy nhiên, nếu bạn không muốn sử dụng lệnh find
, dupeGuru cung cấp một cách gọn gàng và nhanh chóng để loại trừ các lỗi từ hệ thống tệp của bạn. Bạn có thể giới thiệu một số công cụ khác để xóa các tệp trùng lặp không? Bạn có thích dòng lệnh cho nhiệm vụ này không? Hãy cho chúng tôi biết trong phần bình luận.