Chỉ trong tuần này, Spotify đã bắt đầu thử nghiệm các tệp âm thanh "lossless". Nhưng âm thanh "mất mát" là gì, chính xác và cách nén âm thanh kỹ thuật số hoạt động như thế nào?

Nén âm thanh hoạt động như thế nào?

Mục tiêu trong nén âm thanh là giảm số bit cần thiết để tái tạo chính xác âm thanh analog. Quá trình đầu tiên chúng ta sẽ xem xét được gọi là "lossy". Lossy compression là một kỹ thuật một chiều để loại bỏ dữ liệu không quan trọng để tiết kiệm không gian. Những kỹ thuật này là phương pháp phổ biến nhất được sử dụng để nén tệp âm thanh, hiển thị trong các tệp MP3, AAC và WMA. Có hai nơi mà các codec mất dữ liệu tìm kiếm để lưu bit: bit rate và psychoacoustics.

Tốc độ bit

Tốc độ bit đo lường số bit được sử dụng để mã hóa một giây âm thanh. Ví dụ: nếu chúng tôi sử dụng mã hóa chất lượng thấp, 8 kilobit mỗi giây (kbps), thuật toán của chúng tôi bị giới hạn chỉ sử dụng 8 kilobits dữ liệu để mô tả từng giây của âm thanh. Điều đó giống như cố gắng mô tả một bức ảnh toàn màu với chỉ vài trăm pixel. Bạn có thể nhận được các nét rộng ngay, nhưng nhìn chung bạn sẽ nhìn vào một hình ảnh bị suy thoái nghiêm trọng. Nếu chúng tôi sử dụng tốc độ bit chất lượng cao hơn như 192 kbps, chúng tôi có nhiều chỗ để bao gồm các chi tiết sắc thái. Để quay lại ví dụ chụp ảnh của chúng tôi, chúng tôi hiện có đủ pixel để mô tả các ánh sáng, bóng tối và màu sắc khác nhau trong một hình ảnh. Tốc độ bit cao không tự xác định chất lượng của bản ghi, nhưng tốc độ bit thấp có thể hạn chế nghiêm trọng chất lượng đầu ra.

Psychoacoustics

Psychoacoustics là khoa học về cách bộ não hiểu được âm thanh. Bằng cách điều khiển các quirks được biết đến theo cách con người cảm nhận được âm thanh, các thuật toán nén có thể khéo léo loại bỏ các chi tiết mà hầu hết mọi người sẽ không bỏ lỡ. Mục đích là để "làm tròn" thông tin sẽ không thay đổi chất lượng âm thanh được cảm nhận của một bản nhạc, chỉ loại bỏ một cách khôn ngoan thông tin không quan trọng.

Ví dụ, bạn có thể biết phạm vi nghe thông thường của con người là từ 20Hz đến 20kHz. Rõ ràng, âm thanh bên ngoài phạm vi đó có thể được loại bỏ. Hơn nữa, phạm vi chi tiết nhất của thính giác của con người là từ 100Hz đến 4kHz, và loại bỏ âm thanh yên tĩnh bên ngoài các dải tần số đó gây thiệt hại tối thiểu cho chất lượng của bản ghi âm. Chúng ta có thể làm một thủ thuật tương tự với âm thanh tương phản cao. Nếu một âm thanh rất lớn và âm thanh rất yên tĩnh chơi cùng một lúc, âm thanh yên tĩnh sẽ khó hơn nhiều để cảm nhận hơn nó sẽ là của riêng nó. Các bộ mã hóa tận dụng “mặt nạ âm thanh” này để loại bỏ âm thanh yên tĩnh, tiết kiệm bit trong quá trình.

Tần số cũng có thể tác động đến mức độ chúng ta cảm nhận được âm thanh. Ví dụ, một nhịp trống tần số thấp, liên tục có xu hướng làm giảm đi những giai điệu tinh tế, tần số cao hơn của các nhạc cụ du dương. Và mặt nạ âm thanh đặc biệt hiệu quả trên 15kHz, nơi thính giác của con người thường ít nhạy cảm hơn để bắt đầu.

Các sơ đồ nén âm thanh phổ biến như MP3 tận dụng toàn bộ khả năng nén trong khi cố gắng giữ nguyên trung thành với bản ghi gốc nhất có thể. Tất nhiên, một số người cảm thấy như loại bỏ những tần số này gây thiệt hại nghiêm trọng cho việc ghi âm. Đó là lý do tại sao các tiêu chuẩn nén không bị mất.

Âm thanh "Lossless" là gì?

Mục tiêu nén âm thanh lossless là giảm kích thước tệp trong khi vẫn để nguyên âm thanh gốc. Các codec này không sử dụng bất kỳ kỹ thuật nén vĩnh viễn nào ở trên, thay vào đó tập trung vào các phương pháp nén dữ liệu hoàn toàn có thể đảo ngược. Họ sử dụng các kỹ thuật nén lossless mượn từ các thuật toán nén tệp như ZIP để loại bỏ dữ liệu thừa trong khi vẫn giữ nguyên tính toàn vẹn của thông tin cơ bản. Hai codec âm thanh lossless phổ biến - FLAC và Apple Lossless (ALAC) - cả hai đều sử dụng các lược đồ dựa trên nén ZIP.

Tập trung vào nén dữ liệu chỉ có nghĩa là bảo quản nhiều chi tiết mà MP3 và các tiêu chuẩn mất dữ liệu khác sẽ xóa bỏ. Nếu bạn có tai sắc nét và thiết lập nghe chất lượng cao, sự khác biệt có thể sờ thấy được.

Nén lossless không chỉ tốt cho nghe, mặc dù: nó cũng là một công cụ lưu trữ tuyệt vời. Cũng giống như bạn không muốn một JPG 72dpi là bản sao kỹ thuật số duy nhất của các bức ảnh của Ansel Adam, chúng tôi không chỉ muốn các bản nhạc 128kbps của "Kind of Blue". dữ liệu có giá trị. Họ cũng làm cho remastering và phân phối lại rằng âm thanh dễ dàng hơn, kể từ khi bắt đầu với thạc sĩ kiên quyết có nghĩa là một sản phẩm hoàn thiện chất lượng cao hơn.

Kết luận: Bạn có thể cho biết sự khác biệt?

Định dạng âm thanh lossless cho phép ghi âm tốt hơn. Nhưng đôi khi sự khác biệt giữa một MP3 chất lượng cao và một tập tin lossless gần như không thể nhận thấy, đặc biệt là với tai chưa qua đào tạo. Nếu bạn muốn xem nếu tai nghe của bạn (và tai) là đủ quan tâm để nói sự khác biệt, NPR có một thử nghiệm thú vị; chỉ cần nhớ rằng tai nghe và loa máy tính xách tay giá rẻ sẽ không thể tái tạo sự khác biệt tinh tế giữa âm thanh lossless và MP3. Để có phân tích nghiêm trọng hơn về codec, hãy kiểm tra xếp hạng bộ mã hóa của SoundExpert.