Làm thế nào để giải nén hình ảnh nhúng từ một tập tin PDF trong Ubuntu bằng cách sử dụng PDFImages
Mặc dù chúng tôi đã biết cách chỉnh sửa các tệp PDF hiện có trong Ubuntu nhưng đôi khi yêu cầu phải sử dụng tất cả hoặc một số hình ảnh chứa trong tệp PDF. Sao chép thủ công chắc chắn là một tùy chọn, nhưng nó không phải là một tùy chọn tiết kiệm thời gian, đặc biệt là khi tệp PDF chứa một số lượng lớn hình ảnh.
Một công cụ tồn tại, được đặt tên là PDFImages, làm cho việc trích xuất hình ảnh từ tệp PDF trở thành một bước đi chơi bánh. Trong bài viết này, chúng tôi sẽ thảo luận về công cụ này bằng cách sử dụng các ví dụ dễ hiểu. Lưu ý rằng tất cả các ví dụ được sử dụng trong bài viết được thử nghiệm trên Ubuntu 14.04 LTS sử dụng phiên bản 0.24.5 của công cụ.
PDFImages là gì?
Như đã thảo luận, PDFImages là một công cụ dòng lệnh mà bạn có thể sử dụng để trích xuất hình ảnh từ một tệp PDF. Trang công cụ của công cụ cho biết nó đọc tệp PDF đầu vào, quét nó và tạo một tệp Pixmap di động (PPM), Pixmap di động (PBM) hoặc tệp JPEG cho mỗi hình ảnh mà nó gặp trong tệp PDF.
Tải xuống và cài đặt
Nếu công cụ chưa được cài đặt trên hộp Ubuntu của bạn, bạn có thể tải xuống và cài đặt nó bằng cách sử dụng lệnh sau:
sudo apt-get cài đặt poppler-utils
Ngoài PDFImages, gói “poppler-utils” cũng chứa một số tiện ích dòng lệnh khác để nhận thông tin từ tài liệu PDF, chuyển đổi chúng sang các định dạng khác hoặc thao tác chúng.
Sử dụng
Công cụ dòng lệnh PDFImages, ở dạng cơ bản nhất, yêu cầu hai đối số: nhập tệp PDF và đường dẫn đến thư mục mà bạn muốn công cụ lưu hình ảnh. Ví dụ, trong trường hợp của tôi, tôi đã thử trích xuất hình ảnh từ một tệp PDF có tên là “christmas_story.pdf” và lưu chúng vào một thư mục có tên “pdfimages”.
pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Tải xuống / pdfimages /
Lệnh trên tạo ra các tệp sau trong thư mục đích:
ls / home / himanshu / Tải xuống / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm
Như bạn có thể thấy trong đầu ra ở trên, tên của các tệp bắt đầu bằng dấu gạch nối (-) theo sau là một số. Đối với những người tự hỏi tại sao tên bắt đầu bằng dấu nối, công cụ cho phép bạn linh hoạt tiền tố bất kỳ từ nào trước dấu gạch ngang để bạn có thể tạo tên tùy chỉnh cho hình ảnh đầu ra. Bạn có thể làm điều này bằng cách thêm từ đó vào đường dẫn của thư mục đích trong khi chạy lệnh.
Ví dụ: tôi đã thêm từ “hình ảnh” vào đường dẫn của thư mục đích:
pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Tải xuống / pdfimages / hình ảnh
Và các tệp đầu ra được tạo ra trong trường hợp này mang tên sau:
ls / home / himanshu / Tải xuống / pdfimages / hình ảnh-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm
Điều đáng nói đến là trái ngược với những gì trang của người đàn ông công cụ nói, hai hình ảnh được tạo ra cho mỗi hình ảnh trong tập tin PDF của một trong đó là trống trong khi người kia là có thể sử dụng. Trong trường hợp của tôi, các hình ảnh số lẻ được để trống:
Tiếp tục, bạn cũng có thể thay đổi định dạng tệp hình ảnh đầu ra từ "ppm" thành "jpeg", mà bạn có thể thực hiện bằng cách sử dụng tùy chọn -j
. Tuy nhiên, hãy nhớ rằng với tùy chọn này, chỉ các hình ảnh ở định dạng DCT mới được lưu dưới dạng tệp JPEG - tất cả các hình ảnh không phải DCT được lưu ở định dạng PBM / PPM như bình thường.
Bạn cũng có thể chỉ định trang nào bạn muốn công cụ quét. Bằng cách này, bạn sẽ chỉ nhận được những hình ảnh đó ở đầu ra có trên các trang này. Để kích hoạt tùy chọn này, bạn phải sử dụng tùy chọn -f
(theo sau là số trang) và -l
(theo sau là số trang) để chỉ định trang bắt đầu và trang kết thúc tương ứng.
Ví dụ, tôi muốn công cụ này chỉ trích xuất hình ảnh hiện tại trên trang đầu tiên của tệp PDF, vì vậy tôi đã sử dụng lệnh sau:
pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Tải xuống / pdfimages /
Và trong thư mục đích, chỉ có hai hình ảnh (tổng cộng bốn hình ảnh) được tạo ra:
ls / home / himanshu / Tải xuống / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm
Phần kết luận
PDFImages chắc chắn là một công cụ hữu ích nếu công việc của bạn liên quan đến việc xử lý các tập tin PDF và hình ảnh mà chúng chứa, và như bạn có thể đã quan sát bây giờ, thật dễ dàng để học cũng như sử dụng đơn giản. Để tìm hiểu thêm về công cụ, hãy truy cập trang hướng dẫn của công cụ.