Что такое разрядность сэмплирования
Частота дискретизации и разрядность
При описании цифровых записывающих устройств используют два фундаментальных понятия: частота дискретизации и разрядность. В этой статье мы рассмотрим, что это такое.
Частота дискретизации
Частота дискретизации — это частота, с которой записывающим устройством фиксируются отсчеты входного сигнала. При записи звука в цифровом виде фактически записываются отдельные отсчеты или, иными словами, значения интенсивности звука в отдельные моменты времени.
Частота дискретизации для записывающих устройств имеет обычно следующие стандартные значения: 44,1 кГц; 48 кГц и 96 кГц. Чем большая величина частоты дискретизации, тем большее количество отсчетов делается за 1 секунду и тем лучше качество цифрового звука мы имеет в результате.
Каково значение этих чисел? Они подразумевают количество раз снятия за секунду записывающим устройством значения интенсивности звука входного сигнала. Для измерения частоты дискретизации используются килогерцы (кГц), 1 кГц = 1 000 отсчетам в секунду.
К примеру, если запись осуществляется с частотой дискретизации 48 кГц, то это означает, что значение интенсивности звука звукозаписывающее устройство измеряет и фиксирует 48 000 раз в секунду.
Такое количество может показаться невообразимо огромным, но здесь стоит вспомнить о явлении, называемом частотой Никвиста. Частота Никвиста названа так в честь человека, который первым ее обнаружил. Она определяет наивысшую частоту звука, которую возможно записать при данной частоте дискретизации.
Если говорить вкратце, то максимальное значение высоты звука, которое может быть подано в цифровом виде, равно примерно половине частоты дискретизации.
Поэтому, при проведении записи с частотой дискретизации 48 кГц максимальная частота звука, которая может быть записана, равна 24 кГц. Этого вполне достаточно, если учесть, что человеческое ухо слышит частоты в среднем от 20 Гц до 20 кГц.
Разрядность
В разговоре о цифровых записывающих устройствах часто можно услышать слова «16 бит», «24 бита» и т. д. Одни означают количество единиц информации, с помощью которых можно представить значение каждого отсчета, получаемого при цифровой записи.
Чем большая величина этого числа, тем точнее можно записать значение каждого отсчета и тем более высокое качество звука можно получить в итоге.
Не стоит думать, что чем больше количество бит, то есть чем выше величина разрядности, тем большее значение интенсивности можно зафиксировать. Здесь имеется в виду именно точность представления.
В современных записывающих устройствах обычно реализована разрядность 24 бита. Стоит учитывать, что запись с большой разрядностью занимает много места на устройстве хранения, но это не так уж важно, ибо современные носители отличаются огромными объемами и постоянно стают более и более доступными в финансовом плане.
Цифровое представление аналогового аудиосигнала. Краткий ликбез
Дорогие читатели, меня зовут Феликс Арутюнян. Я студент, профессиональный скрипач. В этой статье хочу поделиться с Вами отрывком из моей презентации, которую я представил в университете музыки и театра Граца по предмету прикладная акустика.
Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.
Чем отличается цифровой аудиосигнал от аналогового?
Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).
Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).
Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.
Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).
Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).
Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).
Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).
Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)
Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).
Данная формула позволяет вычислить количество уровней квантования:
Если N — количество уровней квантования,
n — разрядность, то
Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.
При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.
Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением
(
)
Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).
Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).
Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).
Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.
50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.
Теперь о дискретизации.
Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то
Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).
Теорема Котельникова гласит:
Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.
Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.
Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?
Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.
Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.
Аудиопример 4: Линейно возрастающая частота от
100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.
Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг
Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.
Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.
Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):
Битрейт = Частота дискретизации * Разрядность * Количество каналов
Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s
При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.
При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.
Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.
При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.
ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.
Существуют 3 метода хранения цифрового аудиоматериала:
Несжатый (RAW) формат данных
Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.
Аудиоформаты с сжатием без потерь
Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.
Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.
Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).
Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…
При сжатии с потерями
акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».
Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.
Этим и пользуется кодек: 2kHz-звук можно убрать.
Кодеки сжатия с потерям: mp3, aac, ogg, wma, Musepack…
Что такое разрядность сэмплирования
Когда сигнал поступает на АЦП с предусилителя, компрессора, выхода пульта, синтезатора, — он представляет собой электромагнитные колебания. То есть на вход АЦП приходит некая волна с изменяющимся напряжением (очень маленьких величин). Для сохранения сигнала в файл его нужно «оцифровать», то есть закодировать с помощью единиц и нулей. В результате получается график волны на экране компьютера.
Даже самый лучший преобразователь имеет погрешность, ведь между нулем и единицей нет промежуточных значений, и график волны будет состоять только из вертикальных и горизонтальных отрезков, без наклонных линий. На графическую прорисовку волны будут влиять высота звука (частота колебаний), его тембр (форма волны) и громкость (амплитуда). Качественный АЦП должен корректно передать системе записи все эти параметры.
Итак, звук поступает в систему дискретно, то есть разделенным мелкие отрезки. От величины этих отрезков зависит точность кодирования аналогового сигнала в цифровой среде. Чем мельче горизонтальная и вертикальная дискретные единицы, тем точнее оцифровка.
Частота дискретизации
Горизонтальное дробление волны дает нам представление о частоте дискретизации, или частоте семплирования. Чем чаще АЦП фиксирует изменения значений графика волны, тем выше частота семплирования. Собственно, один семпл — это дискретный единичный отрезок, минимальная единица звука. Чем он короче, тем выше частота дискретизации.
К примеру, значение частоты дискретизации в 44.1 кГц показывает, что в одной секунде записи содержится 44100 семплов. Мы можем редактировать волну, принимая за минимальный элемент редактирования отрезок длительностью 1/44100 секунды. При увеличении частоты семплирования до 48 кГц этот отрезок уменьшается до 1/48000 доли секунды, давая возможность более точного воздействия.
Согласование частот дискретизации
АКАДЕМИЯ МЮЗИКМЕЙКЕРА
Книга А. Данилова о создании музыки
Каждый семпл по продолжительности равен предыдущему. Для корректного воспроизведения звука частоты дискретизации файла и системы должны быть идентичны. При добавлении в проект звуковой дорожки с частотой дискретизации, отличной от дискретизации хоста (программы), она должна быть сконвертирована.
Если воспроизводить файл более высокой частоты в системе с более низкой, он будет звучать медленнее, чем должен, и наоборот. Конвертирование сигнала из одной частоты в другую всегда приводит к появлению искажений. Чтобы «перекроить» звук под новую частоту дискретизации, система должна разбить семплы на более мелкие куски и снова собрать их в единую волну. Такой процесс может привести в лучшем случае просто к замыливанию звука, в худшем — к появлению щелчков.
Конечно, на встроенных колонках домашнего ноутбука разница будет незаметна. Но если речь идет о работе со звуком на профессиональном уровне, согласование частот дискретизации необходимо.
Не рекомендуется изменять частоту дискретизации в рамках одного проекта. Оправданием повышению дискретизации может быть, например, необходимость обработки файла алгоритмами или плагинами, лучше работающими на высоких частотах. Поскольку более высокая дискретность предполагает разбиение на более мелкие семплы, точность обработки будет выше, а качество в результате лучше. Но гарантировать эффективность этого метода тоже невозможно: в каждом случае результат будет индивидуальным. Необходимо каждый раз оценивать, что важнее — эффект от обработки на более высокой дискретности или негативное влияние конвертации.
Если по какой-то причине после завершения работы на частоте 48 кГц вам потребовалось конвертировать сигнал в 44.1 кГц, сохраните исходный файл на тот случай, если придется повторно вмешиваться в материал (например, для альтернативного мастеринга). Обработка на более высокой частоте дискретизации даст лучший эффект, чем на низкой.
Разрядность звука
Если горизонтальное дробление волны дает нам представление о частоте дискретизации, то вертикальная дискретизация – это разрядность, отвечающая за достоверную передачу динамических элементов записи. Чем большее количество «ступенек» может зафиксировать преобразователь, тем выше разрядность записанного звукового файла.
Например, волна за отрезок времени может совершить движение одной ступенькой от 0 до 16, а может четырьмя — по 4 единицы за шаг. Более точным представлением будет 16 шагов по единице. Количество ступенек, на которые волна дробится по вертикали, — это и есть разрядность.
Чем выше разрядность конвертора, тем достовернее он передаст сигналы разного уровня громкости. Если мы движемся большими шагами, каждый из которых равен 16 единицам (низкая разрядность), то при громкости входящей волны на уровне 4 график ее будет округлять до нуля. А если каждая ступенька разрядности равна 4 единицам (средняя разрядность), значение 4 будет зафиксировано на своем уровне, а значения 3 и 5 округлятся до 4. При единичном шаге все эти значения будут находиться на своих ступеньках — 3, 4, 5 (высокая разрядность).
Таким образом, более высокая разрядность АЦП дает возможность детальнее интерпретировать различные значения громкости звука и максимально приблизиться к форме реальной волны.
Разбиение волны на «ступеньки» по вертикали и горизонтали называется квантованием. Иногда частоту дискретизации называют частотой квантования, а разрядность динамическим квантованием, то есть разделением по уровням громкости (динамика).
Естественно, пример с 16 единицами — условность. Конверторы работают на гораздо более высоких значениях. Например, при разрядности 16 бит система может передать 65536 уровней громкости (2 в степени 16). А при 24 битах — 16777216 уровней (2 в степени 24).
Казалось бы, зачем столько? Неужели наше ухо способно различить хотя бы десять тысяч уровней громкости? Напрямую — не может. Скажем, два сигнала с «соседними» значениями даже при разрядности 16 бит мы различить не в состоянии. Но работа в студии ведется с разнообразными звуками, и некоторые из них имеют значительные перепады по громкости (к примеру, реверберация). Многие процессы требуют тонкой работы с громкостями (например, едва заметное воздействие эквалайзером на спектр). Для корректной работы нужна система с хорошей разрешающей способностью и по горизонтали, и по вертикали.
Но есть и обратная сторона медали. Высокие значения дискретизации и разрядности делают файлы более объемными, и для их обработки системе требуется больше ресурсов. Здесь самое время вспомнить про различия между ресурсонезависимыми и нативными системами. Чем выше квантование, тем сильнее загружается компьютер. Этот фактор более критичен для нативной системы, обремененной обслуживанием операционки и фоновых процессов.
Всегда нужно искать баланс между значениями дискретизации и разрядности и реальными возможностями системы. Не заставляйте ее работать на пределе, оставляйте резерв мощности.
Мы приближаемся к очень важной и мало кому понятной теме, связанной с музыкальным производством. Речь о так называемых шумах квантования. В ближайшее время этому явлению будет посвящен отдельный материал. Понимание природы шумов квантования дает возможность музыканту и звукорежиссеру разобраться в некоторых непростых вопросах, связанных с записью музыки в цифровой среде. Поскольку ввиду дороговизны и сложности в обслуживании аналогового оборудования подавляющее большинство музыкантов работает прежде всего именно в цифровых системах записи, эта тема так или иначе затрагивает всех.
Следите за обновлениями блога, подписывайтесь на новые статьи, чтобы совершенно бесплатно получать их на электронную почту. Также хочу напомнить, что очень много познавательной практической и теоретической информации содержится в моей книге «Академия Мюзикмейкера», которую без посредников можно приобрести на сайте MusicMaker.Pro.
Остались вопросы? Не стесняйтесь задавать их в комментариях под статьей или присоединяйтесь к обсуждениям в этой группе ВКонтакте, посвященной синтезаторам, музыкальному оборудованию и звукозаписи.
© Алексей Данилов Иллюстрации: А. Рублевский При перепечатывании ссылка на источник обязательна
Хотите получать новые статьи
прямо на почту?
Подпишитесь на обновления блога А. Данилова
Цифровой аудиоформат 24/192, и почему в нем нет смысла. Часть 3 [Перевод]
Сохранить и прочитать потом —
Прим. перев.: Это перевод предпоследней части развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, почему обывателям нет никакого смысла хранить и воспроизводить музыку в формате 24/192 (и о том, кому действительно имеет смысл работать с 24-битным аудио).
Вернемся к вашим ушам
Мы обсудили диапазон частот, который способны распознавать уши, но что насчет динамического диапазона (это диапазон от наиболее тихого звука до самого громкого)?
Один из способов точно определить динамический диапазон – это снова посмотреть на кривые болевого порога и порога слышимости. Расстояние от наивысшей точки кривой болевого порога до самой низкой точки кривой слышимости составляет около 140 децибел – для молодого и здорового человека. Правда, слушать звук на такой громкости долго не получится, поскольку +130 дБ уже достаточно, чтобы повредить слух за несколько минут или даже секунд. Для справки скажу, что громкость отбойного молотка на расстоянии одного метра составляет 100-110 дБ.
Интересный момент: порог слышимости увеличивается с возрастом и потерей слуха, а болевой порог с возрастом уменьшается. Волосковые клетки улитки в ухе захватывают только часть всего диапазона в 140 дБ, поэтому мускулатура уха непрерывно регулирует количество звука, достигающего улитку, путем сдвига слуховых косточек – как радужка регулирует количество света попадающего в глаз [9]. Механизм костенеет с возрастом, что ограничивает слуховой динамический диапазон и снижает эффективность защитных механизмов.
Немногие люди осознают, насколько тихим может быть звук на пороге слышимости человека.
Как пример звукового давления в 20 дБ SPL (что на 28 дБ громче самого тихого звука) часто приводится пустая студия звукозаписи или шумоизолированная комната. Найти место тише достаточно сложно, поэтому вы никогда не слышали шум, издаваемый лампочкой.
Динамический диапазон 16 бит
Как такое возможно? Закодировать этот сигнал без искажений так, чтобы он был значительно выше уровня шума, в то время как его амплитуда занимает треть бита?
16-битное аудио может обладать более глубокой модуляцией, чем 96 дБ, если использовать правильный псевдо-сигнал, который смещает энергию шума квантования в зону, где его сложнее расслышать. На практике [13] 16-битное аудио может достигать громкости в 120 дБ.
120 дБ – это больше, чем разница между звуком комара в комнате и отбойным молотком в футе от вас. Или разница между пустой звуконепроницаемой комнатой и достаточно громким звуком, который способен повредить слух в секунды.
16 битов хватает, чтобы хранить весь слышимый спектр, и будет хватать всегда.
Стоит сделать небольшое замечание о том, что соотношение сигнал/шум для уха меньше, чем динамический слуховой диапазон. Внутри заданной критической полосы, обычно, сигнал/шум составляет лишь 30 дБ. Отношение сигнал/шум не достигнет рамок диапазона слышимости, даже при условии расширения полосы частот. Это гарантирует, что формат 16 бит ИКМ обеспечивает разрешающую способность сверх необходимого.
Также стоит отметить, что увеличение битовой глубины звука с 16 бит до 24 не увеличивает разрешающей способности и «качество» звука. Это всего лишь расширит динамический диапазон – расстояние между самым тихим и самым громким звуком, за счет снижения уровня шума. Как бы то ни было, 16 бит уже обеспечивают уровень шума, который мы не в состоянии услышать.
Когда 24 бита имеют значение?
Профессионалы используют для записи музыки 24-битные сэмплы [14] из-за меньшего уровня шумов и по соображениям удобства.
16 бит достаточно, чтобы охватить весь слышимый диапазон с запасом. Но он не охватывает весь возможный диапазон аудио-оборудования. Основная причина использования 24 бит во время записи – это избежание ошибок. Вместо того, чтобы осторожничать, выравнивая 16 бит по центру диапазона, рискуя отрезать верхние частоты или добавить шума, 24 бита позволяют оператору установить примерный уровень и более не думать об этом. Промах на пару бит не влечет за собой никаких последствий, а эффекты, которые динамически сжимают записанный спектр, имеют большее пространство для маневра.
Также инженеру требуется большее 16 бит при смешении сигналов и мастеринге. Современные рабочие процессы могут включать, буквально, тысячи эффектов и операций. Шум квантования и уровень собственных шумов 16-битной выборки могут быть незаметны при воспроизведении, но при увеличении такого шума в несколько тысяч раз, он сразу становится заметным, а 24-битный формат сохраняет накапливающийся шум на очень низком уровне. После того, как музыка готова к записи на диски, нет никаких причин оставлять больше чем 16 бит.
Тесты на прослушивание
Понимание живет там, где встречаются теория и реальность. Вопрос разрешается только тогда, когда они обе приходят в согласие.
Эмпирические данные, полученные из тестов на прослушивание позволили судить, что 44.1 кГц/16 бит обеспечивает максимально возможное качество воспроизведения. Множество контролируемых тестов подтвердили это, но я рекомендую недавнюю работу «Слышимость стандарта CD, аналогово-цифровое и цифро-аналоговое преобразование, использованное в воспроизведении аудио с высокой разрешающей способностью», проделанную местными ребятами из Бостонского аудио-сообщества.
К сожалению, для доступа к полному тексту работы нужно быть членом Общества звукоинженеров. Тем не менее, эта работа широко обсуждалась во многих статьях и на форумах, авторами, которые туда [в сообщество] входят. Вот несколько ссылок:
В ходе этой работы проводился эксперимент: были отобраны испытуемые, которые выбирали между записями на высококачественных аудио DVD/SACD, подобранными приверженцами звука высокой четкости, чтобы показать его превосходство, и теми же записями, но в CD формате 16/44.1 кГц. Слушателям нужно было выявить какие-либо различия между ними, используя методологию случайного выбора. Бостонское аудио-сообщество проводило эксперимент с использованием высокопрофессионального оборудования в шумоизолированной среде, как с обычными, так и с тренированными слушателями.
Среди 554 попыток, испытуемые выбирали «правильно» в 49.8% случаев. Другими словами, они пытались угадать. Ни один слушатель в течение всего теста не смог опознать, которая из записей была в формате 16/44.1, а какая была звуком высокой четкости [15]. А 16-битный сигнал даже не был сглажен!
В еще одном недавнем исследовании [16] изучалась возможность расслышать ультразвук, как предполагали более ранние исследования. Тест был построен таким образом, чтобы максимизировать возможность распознавания, для этого были добавлены интермодуляционные составляющие в места, где они были бы наиболее слышны. Было установлено, что нельзя услышать ультразвуковые волны… но оказалось, что искажения от интермодуляционных составляющих распознать можно.
Эта статья породила череду дальнейших исследований, результаты большей части которых противоречили друг другу. Некоторые неясности были разрешены, когда обнаружилось, что ультразвук может вызывать большее количество интермодуляционных искажений в усилителях мощности, чем ожидалось. Например, Дэвид Гризингер (David Griesinger) провел этот эксперимент [17] и обнаружил, что его акустическая установка не вносила заметных интермодуляционных искажений, но зато их вносил усилитель.
Читатель, будь осторожен
Очень важно не вырывать отдельные работы или «комментарии экспертов» из контекста или брать их только с ресурсов, интересных вам. Не все статьи полностью соглашаются с этими результатами (а несколько даже не соглашаются с большей частью), поэтому легко наткнуться на мнение меньшинства, которое может доказывать любую точку зрения, которую вы можете вообразить. Несмотря ни на что, статьи и ссылки, приведенные выше, представляют большую важность и серьезный объем знаний и экспериментальных записей. Нет ни одной известной статьи, которая бы прошла испытание временем и поставила бы под сомнение состоятельность этих результатов. Споры происходят только среди потребителей и внутри сообществ меломанов.
Во всяком случае, количество неоднозначных, незаконченных и откровенно несостоятельных экспериментальных результатов, доступных в поиске Google, подчеркивает, насколько сложно провести точное и объективное исследование. Различные ученые ищут всякие мелочи, требуют проводить строгий статистический анализ, чтобы выявить подсознательные выборы, которые непреднамеренно делали испытуемые. Таким образом, мы скорее пытаемся доказать что-то, чего в принципе не существует, что делает положение вещей еще сложнее. Доказательство нулевой гипотезы сродни разрешению проблемы остановки – это нереально. Единственный вариант подтвердить что-то в этом случае – собрать достаточно много эмпирических данных.
Несмотря на это, работы, подтверждающие нулевую гипотезу – это действительно серьезное доказательство; подтвердить «не слышимость» экспериментально гораздо сложнее, чем обсуждать её. Неизвестные ошибки в тестовых методиках и оборудовании почти всегда дают ложноположительные результаты (из-за случайного внесения звуковых различий), а не ложноотрицательные.
Если профессиональные исследователи с таким трудом проводят исследование отдельных аудио-различий, то вы можете представить, как это трудно для любителей.
Как (ненарочно) испортить результаты звукового эксперимента
Самый «лучший» комментарий, который я слышал от людей, верящих в высококачественное аудио (перефразировано): «Я слышал высококачественный звук лично, и улучшение качества звучания очевидно. Вы серьезно хотите, чтобы я не верил своим ушам?»
Разумеется, вы можете верить собственным ушам. Но дело в том, что это мозг чересчур доверчив. Я не пытаюсь кого-то оскорбить, это проблема всех людей.
Предвзятое мнение, эффект плацебо и двойное слепое тестирование
Любое испытание, где слушатель может опознать два варианта по любым признакам, кроме как на слух, обычно приводит к результатам, которые слушатель ожидал заранее. Это называется предвзятостью и имеет схожесть с эффектом плацебо. Это означает, что люди «слышат» различия, из-за подсознательных сигналов и предпочтений, которые не имеют отношения к звуку – это как предпочесть более дорогой (или более привлекательный) усилитель более дешевому.
Человеческий мозг устроен таким образом, чтобы подмечать особенности и различия там, где их нет. И эту особенность нельзя отключить, просто попросив человека принимать объективные решения – это происходит на подсознательном уровне. Предвзятость нельзя ликвидировать скепсисом. Контролируемые эксперименты доказывают, что осознание принятия предвзятых решений лишь усиливает эффект! Тест, во время которого не было устранено влияние предвзятых суждений, ничего не стоит [18].
При одностороннем слепом тестировании слушатель ничего не знает заранее о вариантах и не получает никакой обратной связи в ходе испытания. Такое тестирование лучше прямого сравнения, но не исключает предвзятости экспериментатора. Тот, кто проводит тест, может непреднамеренно повлиять на его ход или передать свою собственную предвзятость слушателю неосторожными репликами (например: «Вы уверены, что это то, что вы слышите?», язык тела также может указать на «неправильный» выбор, и заставить сомневаться, и так далее). Влияние предвзятости человека, проводящего тест, на результаты слушателя также было подтверждено экспериментально.
Двойные слепые тесты – это стандарт, в таких тестах ни экспериментатор, ни слушатель не получают какой либо информации о содержании теста и текущих результатах. Наиболее известный пример – это ABX-тесты, проводимые компьютером, которые есть в свободном доступе – их можно запустить на вашем собственном ПК [19]. ABX-тесты подразумевают минимальное количество результатов слухового теста, до достижения которых они считаются неполноценными. Имеющие хорошую репутацию аудио-форумы, такие как Hydrogen Audio, часто запрещают любые обсуждения результатов слуховых тестов, если они не соответствуют минимальным требованиям объективности [20].
Выше изображено рабочее окно Squishyball – простой командной строки инструмента ABX, запущенного в xterm.
Лично я не проводил ни одного качественного сравнительного теста в процессе исследований (неважно, насколько серьезных) без применения ABX. Наука есть наука, тут нет места нерадивости.
Человеческое ухо может сознательно различать амплитудные различия громкости примерно в 1 дБ, и эксперименты показывают возможность определения различий в пределах 0,2 дБ на подсознательном уровне. Люди практически повсеместно считают громкий звук лучше, и 0,2 дБ достаточно, чтобы человек выказал предпочтение. По результатам любого сравнения, в котором неаккуратно выставлены амплитуды, будет наблюдаться явно выраженное предпочтение громкому звуку, даже если различия в громкости малы для того, чтобы осознать это. Продавцы аудио знают об этом трюке уже очень давно.
Профессиональный стандарт тестирования требует различия амплитуд на величину, не превышающую 0,1 дБ. Это часто требует использования осциллографа или анализатора сигналов, потому что подгадывать и крутить ручки, пока звук не совпадет, достаточно нерационально.
Отсечение сигнала – это еще одна ошибка (иногда проявляющаяся только с течением времени), которую легко допустить. Может оказаться, что несколько обрезанных сэмплов и их производные сигналы сравниваются с необрезанным сигналом.
Опасность отсечения части сигнала особенно разрушительна в тестах, которые дискретизируют, передискретизируют цифровые сигналы и управляют ими «на лету». Допустим, мы хотим сравнить качество звучания сигналов с частотой дискретизации 48 кГц и 192 кГц. Обычный способ провести такой эксперимент – обеспечить субдискретизацию из 192 кГц в 48 кГц, а затем снова провести повышающую дискретизацию до 192 кГц, после чего сравнить два этих сигнала в ABX-тесте [21]. Такой порядок позволяет нам исключить любую возможность изменения параметров оборудования или подмены сэмплов, влияющую на результаты. Мы можем использовать тот же ЦАП для воспроизведения обоих сэмплов и переключаться между ними без каких-либо изменений в режиме работы оборудования.
К сожалению, большинство сэмплов используют весь цифровой диапазон. Невнимательное применение передискретизации часто может привести к случайному обрезанию звука. Очень важно или следить за отсечением (и отбрасывать обрезанный звук), или избегать его, применяя различные методы: например, ослабление (аттенуацию) звука.
Другой носитель – другая мастер-копия
Я просмотрел несколько статей и блогов, которые утверждали о достоинствах 24 бит или 96/192 кГц, путем сравнения CD и аудио-DVD с «одинаковыми» записями. Такое сравнение несостоятельно, потому что для этих записей используются разные мастер-диски.
Непреднамеренные аудио-сигналы практически неизбежны в старых аналоговых и гибридных цифро-аналоговых тестовых установках. Очевидно, что цифровые установки могут полностью устранить проблему в некоторых формах тестирования, но могут и увеличить количество потенциальных ошибок программного обеспечения. Такие ограничения и баги уже достаточно давно дают ложноположительные результаты в тестированиях [22].
Статья «Цифровые испытания – больше о ABX-тестировании» рассказывает увлекательную историю об удивительном тестировании слуха, проведенном в 1984 году, призванном опровергнуть авторитет меломанов того времени, которые поначалу утверждали, что CD уступает винилу. Статья касается не столько результатов испытания (я подозреваю, вы сможете догадаться, какими они были), сколько хаотичности мира, вовлеченного в проведение такого теста. Например, ошибка со стороны организаторов теста случайно показала, что приглашенный эксперт по прослушиванию делал выбор, основываясь не на качестве звучания, а скорее на различных потрескиваниях, которые производили реле коммутаторов.
Анекдотические истории не заменяют реальные данные, но эта история показывает, с какой легкостью скрытые недостатки могут влиять на слуховые тесты. Некоторые из убеждений меломанов тоже довольно забавны, например кто-то надеется, что многие из современных исследований будут считаться глупыми через 20 лет.
Примечания к Части 3
9. Все знают это чувство, когда перепонки «разжимаются» после выключения громкой музыки.
10. Несколько отличных графиков можно найти на сайте HyperPhysics.
11. 20 мПа обычно принимаются за 0 дБ для удобства измерения. Это приблизительно равно порогу слышимости на частоте 1 кГц. На частотах от 2 до 4 кГц ухо настолько же чувствительно как на 8 дБ.
12. В приведенной ниже статье описано лучшее объяснение сглаживания, что я встречал, хотя она [статья] больше о сглаживании изображений. Но первая половина охватывает теорию и практику сглаживания в аудио, перед тем как перейти к теме изображений.
Кэмерон Николас Кристов, статья «Оптимальное сглаживание и ограничение шума на изображениях».
13. Инженеры, занятые в цифровой обработке сигналов, могли заметить, как это сделал мой всезнающий соотечественник, что 16-битное аудио, в теории, может иметь бесконечный динамический диапазон для чистого звука, если вы воспользуетесь бесконечным рядом Фурье, чтобы преобразовать его. Эта концепция очень важна для радиоастрономии.
Хотя работа уха не сильно отличается от преобразования Фурье, его разрешение относительно ограничено. Это накладывает ограничение на максимально возможную битовую глубину 16-битных сигналов.
14. В производстве цифровой музыки используют 32-битные числа с плавающей точкой, потому что это очень удобно для современных процессоров, и потому что это полностью устраняет вероятность того, что случайное обрезание останется незамеченным и погубит композицию.
15. Несколько читателей хотели узнать как тест Майера и Морана в 2007 году мог дать нулевой результат, если ультразвук может вызывать интермодуляционные искажения?
Должно быть очевидно, что «мог» и «иногда» не то же самое что «смог» и «всегда». Интермодуляционные искажения от ультразвуковых волн могут появиться, а могут и не появиться в любой системе, при любом наборе условий. Нулевой результат Майера и Морана означает, что интермодуляционные искажения были неслышны на системах, которые они использовали во время теста.
Вниманию читателей предлагается ознакомиться с простым тестом на определение интермодуляционных искажений, и определить интермодуляционный потенциал их собственного оборудования.
16. Кару и Шого (Karou and Shogo), статья «Определение порога для звука, частотой выше 22кГц» (2001). Материал номер 5401, представленный на 110 собрании 12-15 мая 2001 года в Амстердаме.
17. Дэвид Грезингер, статья «Восприятие средних частот и интермодуляционные искажения высоких частот в динамиках, и их взаимодействие с аудиозаписями высокого разрешения».
18. Со времени публикации несколько комментаторов отправили мне похожие версии одного анекдота (перефразировано): «Я как-то слушал какие-то наушники/ усилители/ записи ожидая результат А, но был очень удивлен, когда пришел к результату Б! Доказано: предвзятость – это чушь!» Я могу сказать две вещи.
Во-первых, предвзятость суждения не заменяет все верные результаты на неверные. Она склоняет результаты в труднопредсказуемом направлении на неизвестную величину. Как вы можете утверждать, что верно, а что – нет, наверняка, если тест был сфальсифицирован вашим подсознанием? Скажем, вы ожидали услышать большую разницу, но были удивлены, услышав малую разницу. Что если там не было разницы совсем? Или разница есть, но будучи осведомлённым о возможной предвзятости, ваш благонамеренный скептицизм скомпенсировал ваше мнение? Или, может быть, вы были совершенно правы? Объективное тестирование, например ABX, устраняет все эти неопределенности.
Во вторых: «Вы думаете, что вы не судите предвзято? Отлично! Докажите это!» Значимость объективного теста заключается не только в его способности убедить нас, но и в способности убедить в этом других. Заявления требуют доказательств. Чрезвычайные заявления требуют экстраординарных доказательств.
19. Наверно, самые простые инструменты для ABX-тестирования:
20. На Hydrogen Audio, аббревиатура TOS8 (objective testing requirement) обозначает необходимое условие тестирования, цифра 8 обозначает восьмой пункт условий предоставления услуг.
21. Принято считать, что передискретизация наносит непоправимый вред сигналу. Это совсем не так. По крайней мере, до тех пор, пока кто-то не допустит ошибку, например, обрезав сигнал. Субдискретизированный, а потом дискретизированный снова сигнал будет неотличим от оригинала. Это обычный тест, используемый для установки более высоких параметров дискретизации, что не обязательно.
22. Это, может быть, не связано напрямую со звуком, но… нейтрино что, быстрее скорости света, серьезно?