индекс
157,03
15 февраля в 21:03

Цифровой аудиоформат 24/192, и почему в нем нет смысла. Часть 1 перевод



В прошлом месяце [оригинальная статья написана в марте 2012] заголовки в прессе сообщали о том, что музыкант Нил Янг и основатель компании Apple Стив Джобс обсуждали возможный запуск сервиса для скачивания музыкальных форматов «бескомпромиссного студийного качества». Большинство газет, журналов и пользователей были настроены достаточно оптимистично касательно перспектив цифрового музыкального формата c квантованием сигнала в разрядность 24 бита, при частоте дискретизации 192 кГц.

К сожалению, нет никакого смысла записывать музыку в формате 24/192. Его точность воспроизведения немного уступает форматам 16/44 или 16/48, но при этом он занимает в 6 раз больше места.

На сегодняшний день существует несколько проблем, связанных с качеством аудио и «применением» распространяемой цифровой музыки. Формат 24/192 не решает ни одну из них. Пока все считают этот формат панацеей, мы не увидим никаких улучшений в музыкальной сфере.

Начнем с плохих новостей


В течение прошедших нескольких недель я общался с разумными, не обделенными научными знаниями людьми, которые верят в музыкальный формат 24/192 и не понимают, как кто-то может не соглашаться с этим. Они задавали хорошие вопросы, которые стоят того, чтобы на них ответили подробно.

Я также задался вопросом, что могло вызвать такую активную поддержку высокочастотного цифрового аудио. Ответы показали, что немногие из людей понимают основы теории сигналов или теорему отсчетов (теорему Котельникова или Найквиста — Шеннона), что неудивительно. Недопонимание математики, технологий и физиологии проявлялись в речах многих профессионалов, которые обладают большим опытом сфере аудиотехнологий. Некоторые даже утверждали, что теорема Котельникова не объясняет, как работает цифровое аудио[1].

Дезинформация и предрассудки на руку только шарлатанам. Давайте разберем основы того, почему же распространение формата 24/192 не имеет смысла, перед тем как выдвигать другие, более обоснованные идеи.

Господа, встречайте! Ваши уши!


Ухо слышит с помощью волосковых клеток, которые расположены на резонансной базилярной мембране в улитке внутреннего уха. Каждая волосковая клетка точно настроена на определенный узкий частотный диапазон, который определяется положением клетки на мембране. Пик чувствительности находится в середине частотного диапазона, который постепенно спадает в обоих направлениях и принимает ассиметричную конусовидную форму, перекрывающую частотные диапазоны соседних клеток. Мы не слышим звук, если нет волосковых клеток, настроенных на эту частоту.



С левой стороны рисунка изображена человеческая улитка с базилярной мембраной (она окрашена бежевым цветом) в разрезе. Мембрана устроена так, что она резонирует в различных местах на протяжении своей длины, в зависимости от входящей частоты: высокие частоты резонируют ближе к основанию, а низкие у противоположного конца. На рисунке отмечены приблизительные расположения нескольких частот.

На правой стороне схематически изображена диаграмма реакции волосковых клеток вдоль базилярной мембраны, в виде группы перекрывающихся сигналов.

Процесс схож с аналоговым радиоприемником, принимающим частотный сигнал, на который он настроен, с близлежащей радиостанции. Чем сильнее не совпадают частоты приемника и станции, тем более неустойчивым и искаженным будет сигнал, вне зависимости от его силы. Существуют верхний (и нижний) уровни частотного диапазона, за пределами которого волосковые клетки не способны принимать сигналы, и мы ничего не слышим.

Частота дискретизации и спектр слышимых частот


Я уверен, вы слышали множество раз, что частоты от 20 Гц до 20 кГц являются диапазоном слышимости человеческого уха. Очень важно понять, как ученые пришли именно к таким цифрам.

Сначала мы измеряем «порог слышимости» по всему звуковому диапазону у группы слушателей. Это дает нам возможность построить кривую, представляющую самый тихий звук, который может услышать человеческое ухо при любой заданной частоте, измеренной в идеальных условиях на здоровых ушах. Безэховое окружение, точность калибровки оборудования воспроизведения и строгость статистического анализа – это легкая часть эксперимента. Слуховая концентрация теряется очень быстро, поэтому тестирование нужно проводить, пока испытуемый не утомлен. Как следствие, возникает множество перерывов и пауз, и тестирование может занимать от нескольких часов до многих дней, в зависимости от методологии.

Затем мы собираем информацию в другой крайности – о «болевом пороге». В этой точке на графике амплитуда настолько высока, что перепонки и нервный аппарат уха перегружаются входным сигналом, и испытуемый начинает испытывать боль. Нужно следить, чтобы в ходе эксперимента не повредить никому слух, поэтому собрать эти данные гораздо сложнее.



На рисунке выше изображены аппроксимированные кривые равной громкости, которые получили Флетчер и Мансон (Fletcher and Munson) в 1933 году, а также показания для частот более 16 кГц, полученные из современных источников. Порог слышимости и болевой порог обозначены красными линиями. Ученые, занимающиеся этим вопросом в последующем, уточняли эти показания. Результатом стала единица измерения «фон» и стандарт ISO 226 для кривых равной громкости. Последние собранные данные показывают, что ухо значительно хуже воспринимает низкие частоты, чем считали Флетчер и Мансон.

Верхний предел диапазона слышимости человеческого уха находится в том месте, где кривая болевого порога пересекает кривую слышимости. В этой точке, или за её пределами, звук резко становится невыносимо громким.

На низких частотах улитка уха работает как рефлексный низкочастотный динамик. Геликотрема представляет собой отверстие на конце базилярной мембраны, которое выступает в роли канала, принимающего частоту от 40 Гц до 65 Гц, у разных людей по-разному. Ниже этой частоты характеристика реакции резко скатывается вниз.

Диапазон от 20 Гц до 20 кГц – это стандартный диапазон слышимости. Он полностью перекрывает слышимый звуковой спектр, что подтверждено практически столетним сбором экспериментальных данных.

Идеальный слух или наследственный дар


Получая множество писем, я вижу, что множество людей верит в существование уникумов с исключительным слухом. Действительно ли существуют такие люди с «золотыми ушами»?

Зависит от того, что называть исключительным слухом.

Здоровые уши молодых людей слышат лучше, чем уши пожилых людей или поврежденные уши. Некоторые люди исключительно хорошо натренированы слышать все нюансы звука и музыки, о существовании которых большинство людей даже не догадывается. Когда-то в 90х я мог распознать каждый mp3-кодировщик (в то время все они были довольно плохими) и мог продемонстрировать это в двойном слепом тесте[2].

Если человек обладает здоровыми ушами и хорошо натренирован на распознавание звуков, я бы назвал его слух исключительным. Тем не менее, люди со слухом ниже среднего могут быть обучены замечать детали, которые ускользают от неподготовленных слушателей. Исключительный слух, по большей части, вопрос тренировки, а не способности слышать за пределами слухового диапазона обычных смертных.

Исследователи слуха очень бы хотели найти кого-либо как с исключительным слухом, так и со способностью слышать за пределами слухового диапазона, чтобы протестировать и записать результаты исследования. Ничего не имею против обычных людей, но каждый ученый хочет найти человека с генетическими причудами, чтобы написать первоклассную статью. Мы не нашли таких людей за 100 лет проведения испытаний, так что, вероятно, их не существует. Так что извините. Но мы продолжим искать дальше.

Любовь к цветовому спектру


Возможно, вы отнеслись скептично ко всему, что я только что написал, потому что это идет вразрез со всеми маркетинговыми ходами. Вместо этого, давайте предположим, что у людей возникла мания на расширение цветового диапазона, и отвлечёмся от звуковой тематики.



На рисунке выше изображена приблизительная шкала чувствительности палочек и колбочек человеческого глаза, сопоставленная с видимым спектром. Эти органы чувств реагируют на свет в перекрывающихся спектральных полосах, также как волосковые ячейки в ушах настроены на восприятие перекрывающихся полос звуковых частот.

Человеческий глаз видит ограниченный диапазон световых волн, называемый видимым излучением. Здесь прослеживается прямая аналогия с диапазоном слышимости звуковых волн. Также как и ухо, глаз имеет чувствительные клетки (палочки и колбочки) которые улавливают свет в различных, но перекрывающихся полосах частот.

Видимое излучение начинается с частоты около 400 ТГц (темно-красный) и простирается до 850 ТГц (темно-фиолетовый) [3], но острота зрения падает с течением жизни. За пределами этого приблизительного диапазона сила света, попадающая в глаза, может выжечь вам сетчатку. Таким образом, получается, что диапазон довольно приличный даже для молодых, здоровых, генетически одаренных личностей – диапазон, который аналогичен широкому диапазону звукового спектра.

Давайте предположим, что в нашем гипотетическом мире, где происходит повальное увлечение расширением видимого спектра видеозаписей, существует группа людей, которые считают, что эти ограничения недостаточно щедры. Они полагают, что видеозапись представляет собой не только зрительный спектр, но еще и инфракрасное и ультрафиолетовое излучения. Продолжив сравнение, предположим, что наиболее активная часть группы (которая гордится этим!) утверждает также, что и этого расширенного спектра недостаточно, и видео будет казаться наиболее естественным, если туда будут попадать микроволны и рентгеновское излучение. Для тех у кого «глаз – алмаз» разница будет огромная, просто день и ночь!

Разумеется, это просто смешно.

Никто не может увидеть рентгеновское излучение (или инфракрасное, или ультрафиолетовое, или микроволны). Неважно, насколько сильно человек верит в то, что он может, сетчатка просто не имеет необходимых инструментов для того, чтобы их воспринимать.

Вот эксперимент, который каждый может провести: сходите и возьмите ИК пульт от Apple [TV]. Светодиод излучает волны длиной 980 нм, примерно равные частоте в 306 ТГц, что близко к инфракрасному спектру. Волны такой длины находятся не так уж и далеко за пределами видимого диапазона. Возьмите пульт в подвал или в самую темную комнату с выключенным светом в своем доме посреди ночи и дайте своим глазам привыкнуть к темноте.



На картинке выше изображен инфракрасный пульт Apple [TV], сфотографированный с помощью цифровой камеры. Хотя излучатель достаточно яркий и частота излучения подходит довольно близко к частоте красной части видимого спектра, инфракрасное излучение абсолютно невидимо для человеческого глаза.

Можете ли вы увидеть, как загорается светодиод пульта, когда вы нажимаете на кнопку[4]? Нет? Даже небольшой проблеск? Попробуйте несколько других пультов, во многих из них используется инфракрасное излучение диапазона 310-350 ТГц, подходящее немного ближе к видимой полосе частот, но вы не сможете разглядеть и его тоже. Остальные пульты излучают свет на частотах 350-380 ТГц, находящихся прямо на краю видимого диапазона, и он едва различим в абсолютной темноте, когда глаза к ней привыкнут [5]. Если бы их частоты совпадали с частотами видимого диапазона, то они были бы ослепительно и болезненно яркими.

Спектр инфракрасных светодиодов составляет максимум 20% от видимого диапазона и находится за его пределами. Частота 193 КГц выходит за рамки диапазона слышимости на 400%. Чтобы меня не обвиняли в сравнении яблок с апельсинами, напомню, что звуковое и зрительное восприятие одинаково ухудшается на границах своих спектров.

Примечания к Части 1

  1. Как написал один разочарованный блогер:
    «Теорема Котельникова не объясняет, как работает цифровое аудио, наоборот, цифровое аудио было изобретено как следствие теоремы, если вы не верите теореме, то вы не можете верить и в существование цифрового звука».
  2. Если это и не был самый скучный трюк, чтобы хвастаться им на вечеринках, то он был достаточно близок к этому.
  3. Более характерно говорить о видимом излучении как о длинах волн, измеренных в нанометрах или ангстремах. Я использую частоту, чтобы как-то сопоставить ее со звуком. Эти величины эквиваленты, потому что частота обратно пропорциональна длине волны.
  4. Эксперимент с индикатором пульта не сработает с ультрафиолетовыми диодами, в основном потому, что они на самом деле не ультрафиолетовые. Они достаточно фиолетовые, чтобы немного флюоресцировать, но все еще в пределах видимого диапазона. Реальные ультрафиолетовые светодиоды стоят около $100 – $1000 за штуку и нанесут ущерб глазам, если проводить такой тест. Потребительские недо-ультрафиолетовые светодиоды дополнительно излучают бледный белый свет, чтобы казаться ярче, так что вы можете их увидеть, даже если пик излучения находится в ультрафиолетовом диапазоне.
  5. В оригинальной версии статьи говорится, что ИК-светодиоды работают на частотах 300-325 ТГц (около 920-980 нм) длин волн, которые невидимы. Довольно много читателей написали мне, что они могут видеть слабое свечение в некоторых (или всех) их пультах. Некоторые из этих людей были достаточно любезны, и сообщили мне модели пультов. Кое-какие из них я проверил на спектрометре. И смотрите-ка! Эти пульты используют высокочастотные светодиоды, работающие на частотах 350-380 ТГц (800-850 нм), а они как раз перекрывают границы видимого диапазона.

[Часть 2]

Автор: @dmitrykabanov Christopher "Monty" Montgomery
Аудиомания
рейтинг 157,03
Одна из крупнейших Hi-Fi, High End компаний в СНГ

Комментарии (210)

+2
dom1n1k #
Статья очень водянистая, много общих слов.
И я так и не понял из неё, почему же формат 24/192 хуже? Если бы мне сказали, что он лучше незначительно, несоразмерно объему — окей, это очень похоже на правду. Или даже что на практике разнице стремится к нулю — тоже можно понять. Но утверждается, что он именно хуже:
Его точность воспроизведения немного уступает форматам 16/44 или 16/48, но при этом он занимает в 6 раз больше места.
+1
dmitrykabanov #
Думаю, что последующие части помогут в полной мере понять точку зрения автора. Просто сразу вывешивать огромную «простыню» было бы не очень удобно для чтения.
+3
wholeman #
Вот эта фраза: «Частота 193 КГц выходит за рамки диапазона слышимости на 400%» вызывает сомнения, потому что формат 24/192 позволяет оцифровать только вдвое меньшую частоту. Вроде, крошечная неточность, но впечатление портит.
+1
zBit #
Тоже подумал об этом. Ведь теорема Котельникова гласит, что для того, чтобы восстановить сигнал нужна частота в 2 раза больше, чем частота восстанавливаемого сигнала или ещё выше. Может автор опечатался? :)
Мы в университете на лабах изучали чувствительность своих ушей. У меня был диапазон 30Гц — 18кГц. Поэтому, думаю, что частоты дискретизации в 44кГц более чем достаточно, чтобы восстанавливать сигнал без излишеств, без частот, которые выходят за рамки слышимости человеческим ухом. С тех пор я как-то скептически отношусь к такому высокому качеству.

Во-первых, ЦАП может и не воспроизвести такое качество на должном уровне.
Во-вторых, даже если ЦАП справится, не факт, что акустические громкоговорители или наушники смогут вопроизвести сигнал с таким качеством.
В-третьих, даже если ЦАП и наушники справятся, то не факт, что ваши уши услышат хоть какую-нибудь разницу.

Но есть одно НО! Для того, чтобы обрабатывать звук необходимо высокое качество исходников, наверно для этих целей и начали записывать звук в таком качестве.
+3
idiv #
Так если максимум 20 кГц, то +400% будет 100 кГц. Как раз половина от 192 кГц (с поправкой на то, что 20 кГц — одно из теоретических значений, видел как среднее в районе 18). Еще может быть перевод не совсем точный.
+2
grokinn #
В оригинале написано «192kHz audio extends to 400% of the audible limit» т.е. речь идет о частоте дискретизации, а не о частоте звука.
0
wholeman #
Спасибо, значит этот ляп не автора, а переводчика. Надеюсь, в следующей части он будет точнее.
–13
Klukonin #
Если человек обладает здоровыми ушами и хорошо натренирован на распознавание звуков, я бы назвал его слух исключительным. Тем не менее, люди со слухом ниже среднего могут быть обучены замечать детали, которые ускользают от неподготовленных слушателей. Исключительный слух, по большей части, вопрос тренировки, а не способности слышать за пределами слухового диапазона обычных смертных.


Это вообще что за мракобесная фраза? Никакой конкретики, никаких данных. Просто взять и, простите, обосрать всех абсолютников. Хотя, вроде, уже эту тему давно проехали. И уяснили что занятие музыкой реально расширяет диапазон слышимых частот. Да и что там говорить, даже обычные люди могут слышать телевизор, или лучше сказать, развертку ЭЛТ. И при этом даже не видеть что он работает где-то рядом.

Никто не может увидеть рентгеновское излучение (или инфракрасное, или ультрафиолетовое, или микроволны). Неважно, насколько сильно человек верит в то, что он может, сетчатка просто не имеет необходимых инструментов для того, чтобы их воспринимать.


Прежде чем писать собственные «экспертные» рассуждения, погуглите хотя бы.

Люди вполне способны видеть инфракрасный свет.
www.popmech.ru/science/52419-chelovecheskiy-glaz-sposoben-videt-infrakrasnyy-svet/

Результаты исследования опубликованы в журнале Proceedings of the National Academy of Sciences (PNAS).

К сожалению, нет никакого смысла записывать музыку в формате 24/192.


Для того чтобы убедиться в том что формат 24/192 не просто имеет место быть, а реально необходим, можно ознакомиться с любым нормальным обзором аудиокарты. Например, вот этой.
www.overclockers.ua/peripheral/asus-xonar-phoebus/all/

От себя как практика могу сказать что разница между 16/44.1 и 16/48 слышна даже на встроенной аудиокарте.
А с 24/192 эту разницу не только слышно, но и видно в тестах, уважаемый «эксперт».

Ну и вот специально для таких «экспертов» я в свое время в журнале зафоткал очень хорошо демонстрирующую нюансы картинку. Она очень емко показывает бесполезность всех подобных популистских статей. (Прошу прощения за качество, в библиотеке было темно).

+2
LuckyStarr #
Ну, прежде всего, это перевод, а не личное мнение человека, разместившего его здесь. Автор и ссылка на оригинал указана.
image

http://xiph.org/~xiphmont/demo/neil-young.html
–10
Klukonin #
Блин, это все равно что писать в договоре мелким шрифтом под звездочкой.

В статье нигде ни разу не упоминается о том что это перевод. Даже тега ни одного нет.
Свинство.

И да, то что это перевод — не отменяет моего мнения и комментарий актуален. Просто он является ответом на мысли автора оригинала.
+2
susnake #
Блин, это все равно что писать в договоре мелким шрифтом под звездочкой.

В статье нигде ни разу не упоминается о том что это перевод. Даже тега ни одного нет.

Эмм, что простите?
image
–7
Klukonin #
Есть нюансы.



Косяк, может, и мой, но это не отменяет того что есть смысл указывать в тегах перевод статьи.
+5
VEG #
Там и перед заголовком значок Z→Я. В трёх местах указано, что это перевод, а вы ещё и в четвёртое место предлагаете это поместить. Ну не смешно ли?

Кстати, автор этой статьи — автор формата Ogg Vorbis, также принимал участие в разработке формата Opus. xiph.org/video/ — тут есть пара полезных видео о звуке. Помогает бороться с мифологией касательно цифрового звука.
0
Alexeyslav #
Я, кстати, сам тоже не замечаю что статья является переводом до тех пор пока это не видно по слогу или в комментариях не упомянут об этом факте. Потом уже начинаешь замечать все эти значки. Глаз цепляется за заголовок и переходит сразу к статье, все эти значки из-за выработанной годами антибаннерной привычки(а может и по какой другой причине) не читать все что находится вне информативного пространства страницы просто не замечаются.
0
DancingOnWater #
Ну а в заглавии статьи тег перевод вы не заметили?
0
Klukonin #
Ответ очевиден.
+2
Singerofthefall #
Блин, это все равно что писать в договоре мелким шрифтом под звездочкой.

Помимо ссылки на оригинал, в заголовке статьи присутствуют значок «Z-Я», и относительно большой синий флажок «перевод». К тому же, статья начинается со слов
В прошлом месяце [оригинальная статья написана в марте 2012]
Простите, но если всего этого вы не заметили, то виновата в этом только ваша невнимательность.
–8
Klukonin #
Судя по тому что не заметил не только я, это какой-то синдром массовой невнимательности.

А вам тоже стоит быть повнимательнее. слова
В прошлом месяце
не относятся к оригиналу этой статьи.
+2
Alexeyslav #
Разницу слышно, увы, из-за несовершенства аппаратуры. Речь идет не об аппаратуре а о формате ХРАНЕНИЯ звука. Воспроизводить на 192кГц имеет смысл, а хранить звук в таком качестве — нет.
0
Klukonin #
Из ваших слов получается что из-за несовершенства аппаратуры имеет смысл записывать и воспроизводить в 24/192.
А вот хранить, почему-то в этом формате смысла не имеет.
Вы серьезно?
+1
AlexanderG #
Вспоминается SACD с его однобитным квантованием и АЖ ЦЕЛЫМИ 2.8МГц дискретизации.
+11
Fuzzyjammer #
> обосрать всех абсолютников
Что? При чем тут абсолютники? Абсолютным слухом называют навык определения высоты тона без опорного тона. Абсолютный слух — вопрос тренировки, он не является гарантией или даже признаком наличия у человека точного/хорошего слуха.

> уже эту тему давно проехали. И уяснили что занятие музыкой реально расширяет диапазон слышимых частот
Нет, это никак не связано. Занятия музыкой помогают развивать слух «музыкальный», т.е. связывать тоны определенной высоты с нотами той нотной системы, в которой человек работает (это исключительно вопрос привычки — мы все привыкли различать ноты в европейском равномерно темперированном строе, но ноты — это условности, договоренности, существуют и другие системы). Они не помогают лучше слышать.
–18
Klukonin #
Похоже что вы не музыкант и слабо представляете о чем речь.
Это ничего страшного.
+7
yumka #
У меня есть музыкальное образование. И Fuzzyjammer точен.
Плюс стоит отметить, что частоты музыкальных октав лежат не ниже 40 Гц и не выше 16 кГц, причем 6-я октава почти не используется.
Музыканты чудесно чувствуют фальшь, различают 1/8 тона и все такое, но это не имеет ничего общего с границами частотного диапазона.
–5
Klukonin #
Тоже обучен музыке. Имею красный диплом.

Все поголовно музыканты из моего окружения имеют диапазон восприятия шире среднестатистического.
Данное наблюдение, кстати, не только мое, преподаватели замечали то же самое.

Это связано именно с тем что при постоянных упражнениях у человека меняется психоаккустическая модель. И затачивается под восприятие гармоник, для чего необходимо улавливать высокие частоты. То что обычные люди не воспринимают некоторые частоты, совершенно не значит что они их не слышат.

Понимаете о чем я?
0
isden #
> Все поголовно музыканты из моего окружения имеют диапазон восприятия шире среднестатистического.

Это результаты аппаратурного тестирования или только личное мнение?
–4
Klukonin #
Давайте устаканим термины. Что вы подразумеваете под таким тестированием?

Вы же прекрасно понимаете что никто единомоментно людей в студию не загонял и слепой тест не устраивал.

Считайте что это личное незаинтересованное мнение. Сложившееся после многолетней обработки и анализа фактов.
+4
isden #
> Что вы подразумеваете под таким тестированием?

Тестирование в лаборатории со спец. оборудованием. Только так.
А иначе, извините, ваше утверждение ложно и не имеет смысла. Я тоже могу заявить, что вижу ИК и УФ, и некоторые мои знакомые это подтвердят.
–6
Klukonin #
Я понял что для вас отсутствие доказательств является доказательством отсутствия, верно?
И это при полном понимании что ваши требования к доказательству никто удовлетворять не будет.

В таком случае предлагаю нам остаться при своем.
+4
isden #
Для меня доказательством является повторяемый эксперимент. Все остальное — субъективщина и искажения восприятия.
–2
Klukonin #
Ну дак давайте проведем.
+2
isden #
Ну это вы уже не ко мне обращайтесь, а к вашим музыкантам (у них наверняка и оборудование найдется). Потом можете статью сюда написать, многим будет интересно, я думаю.
0
mayorovp #
Все поголовно музыканты из моего окружения имеют диапазон восприятия шире среднестатистического.
В статье говорится не про «среднестатистический» диапазон, а про максимальный.
0
mayorovp #
Да и что там говорить, даже обычные люди могут слышать телевизор, или лучше сказать, развертку ЭЛТ. И при этом даже не видеть что он работает где-то рядом.
И что из этого следует? Кадровая развертка — это 50-60 Гц. Частоту строчной развертки я не помню — но начинается она, согласно Википедии, от 15 кГц. Все эти числа вполне укладываются в диапазон слышимости. Где тут противоречие?
0
Klukonin #
А то что кадровая развертка у телевизоров 60 Гц. И, соответственно, строчная это 18,75кГц. Практически предел.
0
mayorovp #
Но ведь 18,75кГц не превосходит 20кГц?
0
isden #
Плюс к этому, неисправный транс развертки может пищать и на половинной частоте.
–3
Klukonin #
Но это уже не писк, а свист. И его точно будут слышать все.

Суть в том что порогом слышимости у взрослого человека считается около 16 кГц.
А строчник практически вплотную подбирается к 19.
0
isden #
Не все. 9-12кГц — это уже на пределе для людей после определенного возраста. А если еще и уровень небольшой, то услышать его можно только в непосредственной близости.
0
Klukonin #
9 -12 это очень большой разброс.

Это уже совсем старые люди лет под 80 (не все) или люди с травмой могут испытывать проблемы с восприятием частот выше 9кГц. Мы такие случаи не рассматриваем. Мы говорим о среднестатистическом взрослом человеке.
0
isden #
Большинство взрослых людей не могут слышать звук частотой выше 16 кГц.

Более тщательные исследования нижней границы слуха показали, что минимальный порог, при котором звук остаётся слышен, зависит от частоты. График этой зависимости получил название абсолютный порог слышимости. В среднем, он имеет участок наибольшей чувствительности в диапазоне от 1 кГц до 5 кГц, хотя с возрастом чувствительность понижается в диапазоне выше 2 кГц.

(с) википедия
Т.е. тут тоже не все так просто. Сильно зависит от многих факторов, в т.ч. и от мощности звука.
0
Klukonin #
Т.е. тут тоже не все так просто. Сильно зависит от многих факторов


Это справедливо абсолютно для всего.
0
rdc #
что за бред?
строчник телевизора никуда не подбирается, поскольку частота строчной развёртки эфирного ТВ — ровно 15625 герц и ни герцем больше.
0
pwl #
эм. В какой стране вы живете?
у SECAM и PAL кадровая 50, строчная 15.625
у NTSC кадровая 60, строчная 15.734
0
grokinn #
Исключительный слух, по большей части, вопрос тренировки

занятие музыкой реально расширяет диапазон слышимых частот


Ну и где тут противоречие? Автор пишет, что с помощью тренировки человек может расширить свой диапазон слышимых частот, занятия музыкой и есть такая тренировка, все логично. Далее автор пишет, что при этом расширить диапазон дальше максимальных значений невозможно, по крайней мере до сих пор не найдено такого индивида, если вы знаете такого приведите пример.

Люди вполне способны видеть инфракрасный свет.

там 2 инфракрасных фотона создали иллюзию одного фотона в видимой части спектра. Ну от длительного воздействия инфразвуком может начаться звон в ушах (и другие вредные для здоровья ощущения), однако нельзя же говорить, что человек слышит инфразвук.

Что же касается формата 24/192 предлагаю дождаться второй части статьи.
+1
DmitriyN #
Можно поинтересоваться, какие именно нюансы демонстрирует зафотканная картинка? Так, чисто ради интереса.
0
marapper #
И вот так каждый раз. Первая статья водянистая, читается за пару минут, а вторую никогда и не увидишь уже (потому что «простыня»). Хватит уже кусочечности в подаче информации!
0
dmitrykabanov #
а вторую никогда и не увидишь уже

Это почему еще? Все опубликую постепенно. Просто можно хотя бы «спасибо» сказать, а не жаловаться.
0
marapper #
Ниже написали, что перевод уже публиковался.
0
dmitrykabanov #
Публиковался где? Не на ГТ. А у меня свой перевод, я не копирую чужие работы.
+2
Nik_sav #
Странное впечатление от статьи, спишем на то, что это первая часть. Лично я не вижу проблемы в избыточности формата 24/192. Объемы носителей данных позволяют и не такое хранить, вычислительной мощности хватает с избытком — уже и смартфоны начинают 4к видео осваивать. Проблему в 6 кратном увеличении занимаемого места считаю надуманной. И пускай разницу на слух не услышать, кто знает, какую информацию научатся вытягивать из звукозаписей через 10-20 лет? Возможно, получится отследить путь уникальных инструментов, выявить дополнительные закономерности психофизиологического восприятия звука и т.д. Надеюсь автор не будет отрицать влияние ультразвука (как и ультрафиолетового излучения) на организм человека, хотя органами чувств они и не улавливаются.
+2
ganzmavag #
Я так понимаю, дело не в разнице на слух, а в том, есть ли там вообще информация, которую нужно кодировать с такой точностью.
Слышал версию про то, что сами АЦП/ЦАП по техническим параметрам не могут оцифровать/выдать звук с такой точностью, с какой он хранится. Ну как 20 мегапикселей на не очень хорошей оптике — вроде их двадцать, а вроде не видно ничего при увеличении.
+3
dom1n1k #
С мегапикселями хорошая аналогия.
Проблема может быть в конкретной реализации или задаче, но никому не придет в голову говорить, что фотографии размером 20Мп не нужны в принципе.
+1
ganzmavag #
Согласен насчет 20 мегапикселей. Но тут скорее дело в том, что кодирование изображений/видео ещё только подбирается к пределам человеческих глаз, а аудио уже достаточно давно подобралось практически к пределам ушей.
Более корректно звук CD сравнивать с FullHD-разрешением на экране смартфона. После определенной плотности пикселей уже не очень понятно, зачем её дальше увеличивать. Далеко не все заметят, если вообще кто-то заметит.
+3
Nik_sav #
Экраны высокого разрешения в смартфонах породили стереоочки на их основе — там такое разрешение уместно. Ну и можно просто ближе к глазам поднести и будет эффект увеличенной диагонали.
0
gene4000 #
Не все могут «поднести поближе». Да и стереоочки-из-телефона тоже случайный неожиданный результат, а не специальное направление в телефоностроении.
0
Nik_sav #
Речь о том, что высокое разрешение оказалось не таким уж и лишним, а вылилось в новое направление. Да, это не для каждого, но ведь вас никто не заставляет покупать смарт с 4к экраном, на сегодня доступны и 800х480 и любые другие разрешения. Мне вполне комфортно с HD экраном на 4.3 дюймах, смотрится приятней чем предыдущий 960х540 на той же диагонали.
0
dom1n1k #
Разрешение экранов у смартфонов действительно перевалили рубеж, за которым пиксели практически незаметны. Но пока еще не достигли момента, когда они станут незаметны вообще.
0
Nik_sav #
С мегапикселями аналогично, такое количество при средней оптике вроде как излишне, но дает больше возможностей для алгоритмов обработки изображения (пример — LUMIA 1020 с ее 41 мегапикселями).
+1
Nidaylokn #
Или так. Если взять хороший, годный ЦАП, то это будет матрица на 20 мегапикселей. А вот «оптика» в данном случае это аналоговая схема после него. Если она не очень, то и толку не будет от хорошего ЦАПа.
0
eexo #
Обобщать ЦАП/АПЦ все равно что обобщать машины, де машина не может ехать быстрее ХХ кмч и везти больше YY человек. У меня осцилограф есть, начального, как пишут, уровня. Там 8 битный АПЦ оцифровывает с частотой до 1 ГГЦ. Так что с технической стороны вообще никаких проблем нет, и оцифровать, и хранить, и воспроизвести (есть, например, аудиофильские пищалки воспроизводящие до 40 кгц, поверенные микрофонами слышащими до того же предела) вполне себе можно.
0
ganzmavag #
Я, видимо, не совсем корректно выразился.
Дело не в том, что АЦП не сможет оцифровать звук с такой частотой и с таким динамическим диапазоном. А в том, что сам звук на входе и по соотношению сигнал/шум и по полосе частот (ограниченной возможностями записи) может нести меньше информации. И лишние килогерцы могут быть просто избыточными.
0
eexo #
Суть то от этого не меняется — вы говорите, что есть некоторая техническая проблема на стороне ЦАП/АЦП. Я же говорю что технической проблемы нет, ни в принципе, ни в реализациях. Единственная проблема в том, что даже если, скажем, на 30 кгц будет офигенно полезный сигнал с соотношением сигнал/шум в 140дб (т.е практически без шума) ухо его тупо не услышит.
+3
Alexar #
Полностью поддерживаю мысль о влиянии на организм. Пусть ушные раковины не улавливают за пределами спектра слышимости, зато остальные органы — вполне себе улавливают. Если правильно расшифровать их влияние, может быть, это даже будет новой эрой в «музыке».
+1
dmitrykabanov #
Интересная тема, покопаю что-нибудь на этот счет.
+3
gatoazul #
Например, инфразвук вызывает повреждение внутренних органов.
0
Bambr #
Не могу не согласиться с Вами. У меня есть далеко не лучшие колонки от Microlab pro 3 и далеко не худшие наушники Sennheiser IE4. Казалось бы, очевидно, кто из них лучше звучит. Однако, некоторые треки действительно раскрываются именно на колонках, тот же трек в наушниках звучит очень хорошо и качественно, но, собака, не цепляет. Мне кажется, это именно из-за того, что вибрации воспринимаются всем телом, а не только ушной раковиной, не знаю, чем еще можно объяснить это.
+1
7313 #
А по-моему в этом скрывается одна из основных проблем современного интернета, который представляет из себя практически один большой гей-парад избыточности, но никто не видит в этом проблемы…
0
Nik_sav #
Мне кажется, все упирается в деньги. Оптимизация обходится дорого, современные устройства потянут и не такое, вот заказчик и экономит. Это как с программами, кто сейчас возьмется писать оптимизированное ПО на ассемблере, и сколько это будет стоить?
0
VEG #
Не всегда это дорого. Обратите внимание на изображения в постах на Хабрахабре. Часто бывают просто вопиющие случаи, когда фотографии огромных размеров выкладываются в формате PNG и тому подобное. В результате вместо 100 килобайт загружаются мегабайты. Неужели так дорого нормально сжать картинки перед публикацией? Банальное неуважение к читателям. В случае с ПО также хватает случаев, когда незначительная оптимизация дала бы ощутимый выигрыш, но это не делается из-за лени и бытующего мнения что «и так сойдёт, компьютеры сейчас мощные, а интернет быстрый».
0
Nik_sav #
Это уже следствие, мне тоже такое не нравится. Но, зачастую хабр подает урок тем, кто не уважает читателя, а на рынке программ сейчас конкуренция и то, что у меня тормозит я стараюсь заменить более удачными аналогами.
+2
Yak52 #
«Да и что там говорить, даже обычные люди могут слышать телевизор, или лучше сказать, развертку ЭЛТ»
Частота строчной развертки ЭЛТ начинается с 15 КГц. Что внутри диапазона слуха. Чего не слышать то. Особенно если строчный трансформатор некачественный.
0
Klukonin #
Вы лукавите. Не 15, а 15.85 кГц. И это саааамые древние телевизоры. У цветных советских телевизоров частота развертки 21.8 кГц. Что уже на пределе общепринятого порога.

Вот:
zadocs.ru/informatika/8102/index.html?page=2
–1
Alexeyslav #
Частота развертки зависит от передаваемого изображения. Если из эфира прилетает кадр с частотой строк в 15.85К с такой же скоростью он и будет воспроизведён.
0
Klukonin #
Нет, частота развертки зависит от того по какому стандарту работает в данный момент телевизор. И она не меняется в зависимости от того что поступает на вход.
–1
Alexeyslav #
так ведь в каком стандарте работает телевизор и зависит от того что поступает на вход.
–1
Klukonin #
А вот и нет.
Телевизор работает в том режиме, в котором вы указали. Или в котором он может работать (если это один режим).
А если на вход подавать что-то не по стандарту — вы и получите нечто совсем не то что хотели.
Все советские телевизоры работали по стандарту SECAM, например. Как раз 21.8 кГц. И они не воспринимали стандарт PAL по умолчанию.
0
Alexeyslav #
Ну вот я захотел посмотреть видеоизображение в системе PAL, телевизор будет продолжать работать в SECAM?
То что советский телевизор работает только в SECAM это конечно печаль, но когда на него подадут сигнал PAL и он сможет его воспроизвести, развертка будет именно 15К.
0
Klukonin #
Я уже отписался в одном из комментариев.

Нужно было точнее формулировать. Советские телевизоры имели собственную развертку частотой 60 Гц.
На память в моем спектре было 21.8кГц строчная развертка (могу ошибаться).

Не обязательно частота развертки сигнала должна совпадать с частотой развертки телевизора.
На современный цветных ЭЛТ телевизорах она не совпадала. И это сделано для повышенного комфорта при просмотре.
+1
Yak52 #
Я не лукавлю. Я же не написал 15,000 КГц

ЧБ ТВ 625 строк частота строчной развертки 15,625 КГц
Цветной SECAM 625 строк — частота строчной развертки, такие же 15,625 КГц (естественно потому, что они совместимы)

–1
Klukonin #
Верно говорите. Только не надо путать частоты развертки сигнала и частоты развертки телевизора.
А ее надо смотреть в конкретном паспорте. На память в «спектре» была 21.8 кГц. За все не скажу, но она была выше чем частота сигнала.
+1
Yak52 #
Возьмем классический телевизор, например 3УСЦТ. Частота развертки будет точно равна частоте строчных синхроимпульсов сигнала.
+1
evtomax #
Нужна возможность вытянуть студийные шумы через 10-20 лет? Тогда 24/192 — для хранения в архиве. Для прослушивания на конечном устройстве такой формат не нужен.

Возможностью получать загар и греться при просмотре солнечных фильмов и фотографий выходит за рамки достоверности воспроизведения изображений.
0
Nik_sav #
Сейчас не нужна, а со временем — кто знает. Вас лично никто не заставляет слушать музыку в таком формате. Мне, в большинстве случаев, достаточно и ужатого МП3, но разве это повод кричать что формат 24/192 не нужен? Избыточность позволяет более тонко использовать частотную/амплитудную коррекцию и более сложные обработки сигналов в том числе и для прослушивания, если кому-то так нравится.

Это вам сейчас так кажется, возможно в будущем, тепло от фотографии с костром будет восприниматься вполне естественно.
0
kosmos89 #
Обычно те, кто предпочитает аудио в формате 192/24, также предпочитают всю обработку отключить и выводить звук через ASIO, ибо не дай бох какой-нибудь битик исказится!
0
Klukonin #
дело не в искажении битиков, а в том что драйвера аудиокарт под винду грешат наличием всевозможных «улучшайзеров». Зачастую весьма низкого качества. И в таком случае самым рациональным будет именно использование голого ASIO. Хотя и там не все гладко.
Вообще Windows приспособлен к производству аудио чуть менее чем никак. Все попытки сделать из него цифровую студию являются сборищем костылей. ИМХО.
0
kosmos89 #
WASAPI?
+5
ganzmavag #
Пока ничего не понятно.
Противники 44,1/16 и не говорят, что ухо слышит за пределами полосы 20 Гц — 20 кгЦ. Они говорят, что из-за неточностей в оцифровке есть погрешности в воспроизведении внутри этой полосы.
Но, впрочем, думаю, дальше в тексте будет и про это. Я сам просто этот момент для себя до конца не прояснил (хватает ли 44,1 или нет, чисто математически), потому интересно бы было прочитать.

Про видео, кстати, если проводить аналогии — можно вспомнить 4К-разрешение на экранах мобильников. Уже разницы толком не видно, но разрешение продолжают наращивать.
0
valplo #
>>>Они говорят, что из-за неточностей в оцифровке есть погрешности в воспроизведении внутри этой полосы.
А по теореме Котельникова их нет. И быть не может.
0
ganzmavag #
Так теорема рассматривает идеальный случай. А как же тот же джиттер?
+2
UnknownType #
А джиттер порождает неограниченный спектр. А это выходит за пределы упомянутой теоремы.
И ваще: музыка иногда заканчивается, и, как следствие, порождает неограниченный спектр, поэтому не подпадает под действие Теоремы.
0
evtomax #
С помощью совершенствования технологий можно сколько угодно точно приближаться к идеальному случаю в рамках частоты дискретизации 44100 Гц.
0
Klukonin #
Вы будете очень удивлены когда узнаете что в чистом виде теорема Котельникова практически нигде не применяется.
Особенно в оцифровке.
+2
valplo #
Вы, когда по лестнице поднимаетесь, нигде в чистом виде закон сохранения энергии не применяете. Значит ли это что он нарушается?
0
megalol #
Здесь работает скорее аналогия с идеализациями типа нерастяжимой нити. Теорема Котельникова работает только в случае чистых гармонических сигналов, то есть бесконечных во времени. Так как у любого конечного сигнала бесконечный спектр, теорема Котельникова говорит о том, что никакой реальный сигнал непредставим в цифровом виде — что довольно бесполезно.
0
Gothician #
Так и частота дискретизации выбрана такой, чтобы покрыть слышимый спектр.
0
megalol #
Что это меняет? Теорема Котельникова — теоретическая конструкция случая бесконечных неквантованных сигналов. А закон сохранения энергии работает всегда и везде (мы так считаем).
0
Gothician #
Эта теоретическая конструкция вполне себе успешно работает во многих областях. Непонятно, зачем восстанавливать абсолютно идентичный сигнал. Любой тракт искажает сигнал, вне зависимости, цифровой он, или нет. Цифровая обработка зачастую даже меньше искажает сигнал, чем предусилитель, корректор, эквалайзер, усилитель и т.д. Даже концертный зал и зрители вносят искажения в звук. А уши вполне себе фильтр высоких частот.
Вообще непонятно о чем спор. Самый лучший показатель — тот же двойной слепой тест. Никто до сих пор не смог достоверно показать разницу между цифрой, аналогом и живым звуком.
0
Fuzzyjammer #
Мне это напоминает немного споры в околомузыкальных кругах насчет задержек в цифровых обработках — мол, опытные музыканты слышат эти 5 мс задержки, которые процессору требуются на обработку сигнала, и это мешает играть на околовиртуозных скоростях; то ли дело теплый ламповый риалтаймовый аналог. А о том, что звуку тоже требуется несколько мс, а то и больше, на путешествие от динамика монитора до уха, они забывают.
0
MiXaiL27 #
Время реакции человека на раздражитель не менее 15 мс. Это чисто физиологическое ограничение, превзойти которое можно только кибер-имплантами!
+1
dtestyk #
аватарка подчеркивает комментарий Ж)
0
megalol #
>Вообще непонятно о чем спор
Чужие комменты читать нужно, тогда будет понятно. valplo сравнил теорему Котельникова с законом сохранения энергии, хотя первая штука — математическая конструкция, а второе — физический закон. При чем тут стандартные аргументы аудиофильского спора я не знаю.
0
Gothician #
Изначально вообще шло о неточности передачи. Я указал, что на восприятие это повлияет практически никак.
А бесконечный спектр, насколько я помню, у единичной функции. То, что гармонический сигнал имеет начало и конец, в первом приближении совершенно неважно. Крутизна нарастания и спада функции по времени не превышает возможностей текущей частоты дискретизации. Вот и выходит, что теорема Котельникова вполне себе описывает практически любое музыкальное произведение.
Речь не идет о том, чтобы восстановленный сигнал был абсолютно идентичным, достаточно ему быть неотличимым от исходного.
0
FSA #
Перейдите от формы сигнала к его спектру. Чтобы закодировать непрерывный сигнал в цифровом виде нам нужно получить некие дискретные отсчёты. А это ни что иное как амплитудно импульсная модуляция. поясняющую картинку я нашёл, например, вот тут ok-t.ru/studopedia/baza9/2736115572672.files/image071.gif
Может быть не очень понятно, Но суть в том, что в спектре АИМ сигнала есть множество гармоник, по форме напоминающих амплитудно модулированный сигнал, где несущей является частота дискретизации. Таким образом, если наш сигнал имеет полосу 0-20КГц, а частота дискретизации 44КГц, то на частотах 24-64КГц будет располагаться «лишний» сигнал, который нужно будет отфильтровывать аналоговым фильтром (а идеальных фильтров не бывает). Если бы частота дискретизации была бы ниже чем удвоенная максимальная частота сигнала, то сигнал и гармоники слились в единую кучу и полезный сигнал нельзя было бы выделить. Увеличивая частоту дискретизации мы свободную полосу между сигналом и гармониками увеличиваем, значит проще будет построить фильтр. Вопрос только в том, а есть ли смысл делать частоту дискретизации больше 48КГЦ. На 96КГц и так уже полезный сигнал и гармоники безумно по частоте различаются. И это ещё не 192КГц. При том, что на всех частотах дискретизации изначальный сигнал до 20КГц имеется в исходном виде при всех частотах дискретизации от 44,1КГц и выше.
+18
sp1983 #
Статья пахнет заряженной водой и гомеопатией.

Увеличивают частоту дискретизации и разрядность не для того, чтобы «расширить границы звука», а чтобы уменьшить quantization/sampling noise (уж простите, не знаю русского перевода этим терминам).
+1
0lympian #
Тоже сразу об этом подумал. К тому же, если это позиционируется, как студийный, а не энд-юзерский формат — та информация вполне может оказаться «не лишней» во время обработки звука. От банального «питча» (таким образом мы сдвигаем неслышимые части в слышимый диапазон), до различных хитрых эмуляций ревербераций, которые также могут уже попадать в слышимый спектр.

Так что аналогия с видимым спектром некорректна. Я бы привел аналогию с несколькими вращениями (на некратные 90* углы) фотки в фотошопе в «натуральном размере» при создании макета дизайна, и то же самое в увеличенном в 10 раз виде, с последующим уменьшением финального коллажа. Как раз пиксилизация в этом случае будет аналогом шума квантования в звуковом семпле, которая при обработке каждый раз будет приводить к эффекту «размытия» результирующего изображения.
+2
kosmos89 #
Вообще, в оригинальной статье есть оговорка на счет продакшена. Статья именно про «релизный» формат.
0
wholeman #
Цифровые фильтры встроены почти в каждый уважающий себя плеер, поэтому всё сказанное об обработке для обычного пользователя также актуально.
0
googol #
А можете привести данные о динамическом диапазоне которое воспринимает человеческое ухо (и сколько это будет в битах)?
0
pdima #
Судя по графику между порогами слышимости и боли порядка 120db — если не ошибаюсь около 20 бит.Но не уверен что это применимо к прослушиванию музыки.
0
Klukonin #
На русском это называется Шумы квантования =)
0
megalol #
Ждем статьи о том, почему не нужно 4К видео — ведь угловое разрешение глаза недостаточно, чтобы его воспринимать.
0
kosmos89 #
Зависит от того, на каком расстоянии вы его смотрите. Не так давно смотрел в IMAX один фильмец, и вполне видел отдельные пиксели. А там вроде как 8К.
+19
megalol #
Ну, строго говоря, не от расстояния, а от углового разрешения, о чем я и написал.
Но написал я ерунду — потому что видео 4К любят не за то, чего не видно. А за то, например, что можно поставить на паузу, сесть поближе (или сделать зум) и поразглядывать родинки у актрисы или витрины магазинов на заднем плане. А художники любят за то, что у них есть большой запас по редактированию — можно сделать кроп и не париться. Хотя в целом мне 720р достаточно с моей близорукостью — но скачаю я лучше хотя бы 1080, просто потому что есть не просит, и я не говорю, что 4К не нужен.

Автор же говорит о том, что раз у тебя монитор 1920х1080, то ничего лучше картинок 1920х1800х16 бит тебе не нужно. Да и то много, лучше 720р, все равно ты близорукий, и 16-битную картинку от 24-х битной не отличишь. Бред? Бред.

Теперь по существу.

По битам все точно однозначно. 16 бит — это мало. Уши — логарифмический прибор. Давление у звука в плюс и минус, то есть это 32768 отсчетов в одну сторону и другу. Далее старую музыку принято писать на -3 или -6 дБ среднеквадратичной мощности — чтобы осталось место для пиковых звуков. Калькулятор говорит, что -3 дБ это уже 30% мощности — логарифмы, они такие. Классическую музыку пишут еще тише — там бывают ГРОМКИЕ моменты, но не всегда. Уже остается 14 бит. И, самое главное, у классический музыки есть продолжительные тихие фрагменты на которых звук может быть и восьмибитным по качеству. То есть если захочется послушать тихий фрагмент на нормальной громкости — привет шум квантования. Не страшно (мы не аудиофилы и винил послушаем), но зачем так делать в 21 веке, когда уже даже гигабайты ничего не стоят — не очень понятно. В общем 24 бита — это всего лишь на 50% больше данных и must have. 18-20 бит тоже было бы достаточно (и АЦП больше и не тянут на самом деле), но машине удобнее 24 или 32 float'ы.

По килогерцам не так однозначно. Но автор дочитал до теоремы Котельникова, но не стал читать дальше.
А дальше там вот что. Если на АЦП пустить синусоиду частотой f, причем больше половины частоты сэмплирования f>f_s/2, то такая частота нормально оцифрована не будет. Вместо этого будет другая синусоида, зеркальной частотой (f_s/2 — f) (http://zone.ni.com/images/reference/en-XX/help/370051V-01/aliasing_effects.gif). Это теорема Котельникова и тут все понятно. Чтобы этих частот-приведений не было, все, что выше (f_s / 2) нужно отфильтровать заранее. Это тоже понятно. Перед любым АЦП стоит аналоговый фильтр, который фильтрует все, что выше (f_s / 2).
НО. Идеальных фильтров не бывает, особенно в железе. Они или искажают фазу, или «звенят» — на тех частотах, которые, в идеале, трогать не должны. Поэтому чем более пологую характеристику имеет фильтр, тем лучше для сигнала (http://www.thinksrs.com/assets/instr/SIM/SIM965diag2aLG.gif). Но тут возникают проблемы. Если мы настроим частоту отсечения на (f_s / 2), то «хвост» фильтра уйдет в ультразвук и АЦП превратит его в слышимый алиасинг. А если мы установим частоту фильтра меньше (f_s / 2), то и фильтрация будет слышна уже ушами, и хвост все равно уйдет выше ультразвука. И решение проблемы только одно — частота сэмплирования должна быть такой высокой, чтобы максимальная частота была не выше (f_s / 2) с учетом работы аналогового фильтра. Поэтому fs=44.1 — это весьма на пределе, хотя большинство взрослых людей выше 18 кГц не слышит. fs=2*24000 — чуть получше, но тоже впритык.
Далее, музыку бывает и замедляют. Например, диджеи, чтобы подогнать треки. Это требует ресэмплирования, и чем больше тут запас f_s, тем лучше — аналогично как лучше обои под разные разрешения из одного качественного исходника, а не постепенно уменьшать разрешение и сохранять.
Далее, нелинейным цифровым эффектам лучше работается при передискретизации — ровно по той же причине, почему так лучше АЦП. То есть если хочешь наложить теплый ламповый звук в цифре, то VST-плагин внутри себя повысит частоту в 2-4 раза, наложит эмуляцию лампы, дальше понизит частоту (не забыв сделать фильтрацию как у АЦП, чтобы не было алиасинга с теми же самыми проблемами), и выкатит это в уши. В случае же исходника в 192, он просто наложит эмуляцию и весь алиасинг будет на безумной частоте в районе 80 кГц.

Конечно, все это делается просто чтобы впарить людям очередное переиздание очередных битолз и решается это одним — снижением срока копирайта лет до 15. Но это не отменяет того факта, что новую музыку лучше писать и сохранять в хотя бы в 24/96, а лучше в 24/192 — просто, чтобы было. Пригодится.
0
googol #
> И решение проблемы только одно — частота сэмплирования должна быть такой высокой, чтобы максимальная частота была не выше (f_s / 2) с учетом работы аналогового фильтра.

Скажу вам больше — семплирование производится на частотах намного выше чем 44.1K (по причинам которые вы назвали — неидеальность anti-aliasing filters) en.wikipedia.org/wiki/Oversampling Затем производится децимация до 44.1/48K и в этом формате передается.
0
megalol #
Это не меняет сути. Если просто сделать децимацию, алиасинг принципиально не пропадет, хотя будет потише. Делают так (в вики это написано): [плавный аналоговый фильтр] — [АЦП] в 192 кГц — [крутой цифровой фильтр] в 192 кГц — [децимация] в 48 кГц — …
И суть остается той же, о чем я написал: при разработке цифрового фильтра все равно возникает дилемма — как не испортить звук фильтром с очень крутой частотой среза и при этом не допустить хвоста, который «отразится» виде алиасинга, то есть плавно спадающего шума от 22,5 кГц вниз. В слышимом диапазоне.

Тут возникает вопрос, _зачем_ портить звук вторым цифровым фильтром? Ответ простой — чтобы сэкономить место на диске, процессорное время и т. п. Все, другой мотивации этому нет. А в случае 192 кГц мы… просто ничего не делаем. Любой цифровая цифровая обработка будет иметь алиасинг в таком ультразвуке, что нам никакой разницы не будет.

Аналог в мире изображений — это хранить в 1280x720, но периодически делать апскейл в 4 раза, накладывать фильтр, и делать даунскейл. Не то, что бы это было так страшно (99% землян разницы не заметит), но зачем, если можно хранить RAW-исходники?
0
ValdikSS #
Аналог в мире изображений — это хранить в 1280x720, но периодически делать апскейл в 4 раза, накладывать фильтр, и делать даунскейл.

Честно говоря, это происходит чаще, чем вы думаете, только в мире видеообработки :)
+6
Int_13h #
Тот самый случай, когда комментарий полезнее самой статьи.
0
dyadyaSerezha #
Да взять тривиальный пример: сэмплируем синусоиду частотой F/2, частота сэмплирования F, и мы точно попадаем во все нули синусоиды, они как раз с двойной частотой встречаются — ну вот так вышло. Что будет? Да полная фигня будет — то есть, полная тишина на сэмпле.

И даже если частота сэмплирования в 4 раза больше частоты синусоиды, мы можем попадать ровно на точки «45 градусов» — их как раз 4 за цикл. И что тогда будет? А будет в лучшем случае уменьшение сингала на 30% (синус от 45% примерно 0.7). А в худшем случае еще большая лажа. Получается, что частота сэмплирования даже в 4 раза больше максимальной частоты сигнала не достаточна.
+1
megalol #
В теореме Котельникова строгое неравенство 0 меньше f меньше ( f_s/2). То есть ни частоты в половину f_s, ни частоты 0 у нас нет. А в остальных случаях сигнал можно восстановить. Правда нужно учитывать, что у любого конечного сигнала (даже у синусоиды стартующей сейчас и прекращающей звучать через миллион лет) бесконечный спектр. Поэтому бесконечную синусоиду частотой 0,999*f_s/2 восстановить можно, а реальная синусоида длительностью в пару секунд вполне может звучать как тишина.
Конечно, в реальности ничего подобного нет, но в целом можно считать, что не считая экстремальных случаев, она работает нормально.
>И даже если частота сэмплирования в 4 раза больше частоты синусоиды, мы можем попадать ровно на точки «45 градусов» — их как раз 4 за цикл.
Всмысле цикл [sqrt(1/2) sqrt(1/2) -sqrt(1/2) -sqrt(1/2)]? Тут получится прямоугольник, у которого фурье-спектр такой, что высшие гармоники будут уже выше f_s/2, а мы априори знаем, что таких сигналов у нас не было. Поэтому в этом случае сигнал тоже восстанавливается однозначно.
0
aleks_raiden #
Ну википедия говорит другое (про цифровой imax именно, а то он и пленочный есть):

Большинство цифровых кинотеатров IMAX оснащаются двумя цифровыми кинопроекторами с разрешающей способностью 2К, эквивалентной 2048×1080 пикселей. Оригинальный цифровой стандарт IMAX предусматривает использование двух проекторов с разрешением 4К, однако, даже такая система не достигает теоретически необходимого разрешения, примерно равного 8K
–2
kosmos89 #
>2048×1080 пикселей
Мда, зачем он тогда такой нужен?! У меня монитор больше выдает.
0
tangro #
Та всем плевать есть там ценная и слышимая информация или нет. Сервис выйдет под лозунгом «бескомромисного качества 24/192» и срубит свои деньги, с тех самых людей которые покупают вот эти кабеля. Какая разница, что там слышимо, если можно написать в твиттер «слушаю музыку в 24/192 — да, не зря купил, своих денег стоит» и чувствовать себя крутым как Эверест.
+1
dtestyk #
Из этой работы должно быть ясно, что смысл всё таки есть.
+1
kosmos89 #
>При 16-разрядном квантовании ни на тестовых синусоидальных сигналах, ни на музыке ошибки квантования практически не слышны.
Из этой самой методички.
0
dtestyk #
Во-первых:
На музыкальных сигналах с 8- разрядным квантованием этот рокот воспринимается как «грязное звучание» или дробовой шум. При 16-разрядном квантовании ни на тестовых синусоидальных сигналах, ни на музыке ошибки квантования практически не слышны.
Т.е. тут сравнивается с 8 разрядами.
Во-вторых, есть еще частота сэмплирования.
+1
UnknownType #
1. Давайте начнем с того, что дети слышат синус на частоте больше 20кГц. Когда мне было четырнадцать лет, я имел возможность играться с генератором сигналов и слышал звук частотой 25кГц. Мужики, находящиеся в лаборатории его, естественно не слышали. Сейчас я уже не слышу звук в 20 кГц. Если подходить формально, то в соответствии с теоремой Котельникова, формат с частотой дискредитации дискретизации 50кГц (=2*25кГц) обеспечит лучшую аутентичность записи для ребенка, чем унылые 48кГц.

2. Теорема Котельникова говорит о частоте дискретизации по времени, но (насколько я помню) ни слова о точности отсчетов по амплитуде. Иначе, для записи звука, было бы достаточно формата 1/40 (1 бит на 40кГц).

3. Звук, даже в быту, приходится обрабатывать и обещанные 16бит «по вертикали» изменением громкости фрагмента легко превращаются в 14. При последующем выравнивании громкости всей композиции, накапливаются ошибки округления.

4. В 6 раз больше места занимать будет raw материал, а пользоваться будут форматами прихоакустических моделей со сжатием. Если в верхней части спектра модель информацию не увидит, значит и размер материала не увеличится.

Вы все еще фотографируете в JPG?
+5
sp1983 #
> Когда мне было четырнадцать лет, я имел возможность играться с генератором сигналов и слышал звук частотой 25кГц

А вы уверены что это были именно 25кГц, а не какая-нибудь из гармоник генератора в районе скажем (для примера) 18кГц? Идеально ровную 25кГц синусоиду — не так просто получить. А скажем если совсем чуть-чуть амплитудно промодулировать 25кГц сигнал сигналом в 7кГц (например), то на выходе появится сигнал с ярко выраженной гармоникой на 25кГц и двух довольно слабых, но различимых на 18кГц и 32кГц. Не совсем идеальный генератор вполне мог выдавать подобные биения, порождающие гармоники на частотах ниже 20кГц (но не различимые для более взрослых людей)

P.S. на своем ребенке ставил опыт — 20кгц она слышит, 22 — уже нет
–1
UnknownType #
Уверен. Гармонику в 18kHz кто-нибудь из лаборанток наверняка бы услышал. Марку генератора не помню, но он точно ежегодно поверялся. Не уверен, что различал громкость сигнала, но наличие/отсутствие сигнала слышал точно.

Вот вроде как пруф некогда уважаемого издания:
В настоящее время установлено, что звуки частотой 25-34 кГц способны слышать некоторые дети в возрасте до 7 лет.
+2
kosmos89 #
Ну а динамик тот точно мог воспроизвести эту частоту? Нелинейные искажения приводят к порождению таких частот, которых в изначальном сигнале не было.
+2
kAIST #
Одно дело снимать/записывать/обрабатывать, другое дело распространять. Никто же фотографии в RAW не распространяет.
0
googol #
Именно! По хорошему снимать сигнал надо на частотах намного выше Найквиста en.wikipedia.org/wiki/Oversampling

А вот чтобы хранить для последующего проигрывания (не обработки!) 48K достаточно.
+1
kosmos89 #
>пользоваться будут форматами прихоакустических моделей со сжатием
Ну вот согласно этой самой психоаккустической модели будут вырезаны все частоты выше 20кГц. Нафиг тогда вообще со 192 заморачиваться?
+2
hf35 #
Даже если 24/192 имеет смысл с точки зрения хранения информации, то с точки зрения звука и музыки нет.
Слушать надо инструменты и музыку, а не биты и герцы.
+1
Mulin #
Я могу кратенько:
Ни одна из существующих механических колебательных систем активации воздуха (электродинамическая, электростатическая, пьезоэлектрическая и т.д.)не способна воспроизводить подобные нюансы сигнала, хотя бы ввиду наличия конечно массы у источника колебаний.
+1
Avocado2004 #
Кто-нибудь слышал про Noiseshaping? при каждой операции с цифровым звуком к нему добавляется некоторое количество шумов (Dithering). Формат 24/192 дает прежде всего возможность расширить передаваемый динамический диапазон по сравнению с тем же 16/44. Чисто теоретически 16/44 позволяет передавать до 96дБ динамики. На практике обычно около 93-94. Все это из-за добавления шумов. 24 бита сами по себе уже позволяют кодировать до 144дБ динамики. Но ни один из сегодняшних ЦАПов не способен воспроизводить такой огромный динамический диапазон. Повышение частоты дискретизации позволяет фильтровать добавляемый при цифровой обработке шум таким образом, что бОльшая его часть оказывается в неслышимой части спектра, таким образом можно получить выигрышь в несколько дБ в передаче динамического диапазона. Однако при 24 бит толку от этого будет немного ибо железо пока еще отстает. Если мне не изменяет память, в настоящий момент лучшие ЦАПы способны передавать до 131 дБ динамики. Есть еще один момент, почему скажем 24/44 будет звучать хуже чем те же 24/192. Все дело в корявых фильтрах во многих ЦАПах, которые обрезают все выше 20кГц в соответствии с теоремой Котельникова. Если применять фильтры Чебышева с наибольшей крутизной, то даже при частоте фильтра в 22кГц в слышимом диапазоне появятся искажения, не говоря уже о 20кГц. Поэтому с точки зрения сохранения детализации на высоких частотах куда лучше поставить фильтр Баттерворта на частоте 22кГц с крутизной всего в 6дБ/октава и повысить частоту дискретизации до скажем тех же 88кГц. Искажения будут минимальными и детализация сохранится. В общем, если уж очень хочется повысить качество цифрового звука, то на мой взгляд в настоящий момент 24/88 было бы более чем достаточно для большинства аудиофилов. Однако с точки зрения маркетинга 24/192 смотрятся куда лучше, именно поэтому про него куда чаще вспоминают чем про те же 24/88 или 24/96. Есть и еще один интересный момент, все что выше 20кГц ухом напрямую не воспринимается, однако косвенно мы вполне замечаем отличия формата 44кГц и 96кГц. Мы слышим разницу прежде всего в увеличении детализации на 96кГц. Особенно заметна разница на всякого рода импульсных сигналах (например ударные).
+1
evtomax #
В современных ЦАП частота дискретизации исходных данных повышается в несколько раз, потом производится цифровая фильтрация, затем уже стоит аналоговый фильтр с низкой крутизной. Поэтому описанная вами проблема давно успешно решена, и хранить аудиофайлы с частотой дискретизации 88 кГц не нужно.

А 44100 Гц звучит хуже 96000 Гц из-за низкокачественного апсемплинга. Родная частота дискретизации ЦАП вашей звуковушки 96000 Гц, поэтому всё, что на него приходит, должно быть приведено к этой частоте. Хорошие алгоритмы преобразования съедят больше половины ядра современного процессора, поэтому для проигрывания музыки в реальном времени применяют быстрые, но дающие кучу искажений при некратных частотах дискретизации.
+1
ValdikSS #
Это если еще проблем в драйвере нет. Я такую огроменную разницу слышал на лаптопе с Realtek между 44100 и 192000 в драйвере, что вы не поверите! Я не знаю, что он там за магию делает, но это явно был баг драйвера.
+1
evtomax #
А может это не баг, и так задумано, чтобы пользователь был уверен, что есть польза в сотнях килогерц? :-)
0
defuz #
Автор, я правильно понял то что вы хотите сказать: частоту дискретизации цифрового звука увеличивают для того, чтобы увеличить частотный диапазон?
0
Mithgol #
Автора здесь (на Geektimes) нет, потому что перед Вами перевод.
0
engine9 #
А записывать есть смысл в таком формате чтоб потом выжать максимум?
+1
AxisPod #
Это маркетинг и ничего с этим не поделаешь. Суют же в смарты экраны с такими разрешениями, что глаз человека не способен различить и уходят всё дальше и дальше от этой границы. И тут будет тоже самое, в скором будущем будет будет 48/384, никуда не деться, будет очень дорогое железо и не важно, что это бесполезно для конечного потребителя, это полезно для кармана производителя.
0
Gothician #
Возможно, избыточная информация особо и не мешает, тем более, что и с местом для хранения информации сейчас особых проблем нет.
Но другой вопрос — не идет ли гонка за битами и килогерцами во вред остальному? Не страдает ли качество ЦАП и АЦП от такой гонки за цифрами?
Ведь практически никто не слушает записи в специальной звукоизолированой комнате, нас постоянно окружают шумы, аппаратура вносит свои искажения. С ними гораздо тяжелее бороться, чем пойти по достаточно простому пути «а добавим-ка мы циферок».
+3
Audiophile #
Дык переводил уже: audiophilesoft.ru/publ/theory/24_192_downloads/6-1-0-236 (по ссылке переведены все части)
–1
Mii #
Простите, конечно, но думаю у многих меломанов есть несколько особенных треков в запасе 24/96+, на которых слышимость разницы с 16/44.1 просто феноменальна, и заметна так же, как приближающийся поезд
0
VEG #
Перекодируйте 24/96 в 16/48, после чего сделайте слепой тест, чтобы исключить эффект самовнушения. Сколько раз сталкивался с заявлениями из разряда «любой lossy файл звучит ужасно, легко отличу от lossless» — ни разу не подтверждалось на практике в случае с правильно закодированным lossy с высоким битрейтом. А это ведь ещё «жёстче», чем понижение частоты дискретизации с 96 до 48 килогерц.
+3
evtomax #
Есть методика получше: с помощью хорошего алгоритма (best sinc interpolation) перекодировать 24/96 в 16/44.1, потом обратно в 24/96. А потом в слепом тесте попытаться отличить исходник от результата двойного преобразования.
0
Mii #
Это уже другой тест, мы же не храним музыку в 24/96 согласно статье, потому что это не имеет никаких преимуществ, а вы предлагаете сохранить трек именно так, но с включенным ресемплингом от ffd libsamplerate sinc highest в 96 результат тот же.
0
VEG #
Если вы не поняли, то при чтении исходника с частотой дискретизации 44.1 или 48 килогерц плеер может на лету делать ресэмплинг, если в этом есть необходимость. Этим же может заниматься и аудиокарта. Если для вас 24/96, полученный из 16/48, на слух не будет отличаться от оригинального 24/96, значит для ваших ушей нет разницы между 16/48 и 24/96.
0
Mii #
Успел и этот вариант послушать, результат тот же. на нужном куске результат 100%, ниразу не спутал что где.
0
VEG #
Делитесь куском, очень интересно, что же там :)
0
Mii #
Что значит нет разницы для ушей, когда я говорю только об определенном треке, об определенном его моменте, в котором она для меня разительна при любых вариантах, включая ресемплинг в 16/44 и обратно 24/96, в каких-то случайных треках или хорошо знакомых я даже не при слепом прослушивании не уверен, что могу отличить что-то. Если для вас не существует такого трека, в котором вы при слепом прослушивании что-то можете отличить, то значит вы его не нашли.
0
VEG #
Я же говорю, показывайте что у вас там за момент.
0
Mii #
desimal — afterlife, есть на рутрекере виниловый рип 24/96. В строке поиска Desimal Task Horizon, первая минута, что-то типа сибилянтов 16/44 на высоких в первой минуте, теряющие эмоциональную окраску, почти сразу, в 24/96 это вполне внятный звук для меня, четко обоснованный автором.
0
grokinn #
На рутрекере 2 виниловых рипа, один на 24/96 другой на 16/44, между ними есть разница, потому что они сделаны на разном оборудовании с разными настройками. Когда я перекодировал рип 24/96 в 16/44 я перестал слышать разницу. (если кто хочет повторить эксперимент то вот dl.dropboxusercontent.com/u/407979/Afterlife.zip )
Хотя тут конечно все индивидуально, однажды я сделал lossless и lossy (максимальное качество) рипы и отдал на слепое тестирование на офисном ноутбуке с самыми дешевыми китайскими наушниками (даже не капельками), и подопытный точно назвал где какой рип.
0
Mii #
Да достаточно хорошо исключена погрешность оборудования, старенькие двухдрайверные арматурные iem, в качестве цап hifimidy u2 asynchronous. Это достаточно чтобы услышать хоть что-то с большой долей вероятности думаю. А виниловый рип он вообще сугубо индивидуален, это да.
0
evtomax #
Ресемплинг из 96 в 44.1 производился с теми же настройками? В исходнике есть частоты выше 22 кГц?

Ресемплинг в родную частоту аудиокарты нужно произвести для того, чтобы ресемплингом не занялся системный микшер, который делает это плохо. Если бы у вашей аудиокарты была бы родная частота 44100 Гц, то можно было бы без заморочек слушать файлы с частотой дискретизации 44100 Гц.
0
Mii #
Давайте разберемся в терминологиях. Best Sinc Interpolator это одна из трех фич libsamplerate, имеющая в своем названии «sinc». Всего имеется три опции в официальной докуметации: Fastest Sinc Interpolator, Medium Sinc Interpolator, и Best Sinc Interpolator. Путем нехитрых сопоставлений официальной документации, и ffd, подключенного к моему mpc, делаем вывод, что обычный ресемлер ffd в реалтайме делает то же самое. Сорцы, конечно не читал, но давайте закончим ламерские поучения на этом. И да, я так же использовал sox.exe, если вы, конечно, знаете о чем я, для чистоты эксперимента.
Это был оффтоп. По существу ниже.
Причем тут вообще 22кгц, вы верхнее сопрано же в 11кгц отличите же от 44.1? А те 5-7кгц трека, о которых я говорю порядком соотношения с 44.1 не отличаются в общем-то.
0
evtomax #
Если в вашем рипе винила есть что-то выше 22 кГц, то это может создавать интермодуляционные искажения ниже 22 кГц. Синусоида 23 кГц и синусоида 24 кГц, звучащие одновременно, при несовершенстве акустической системы приведут к появлению синусоиды 1 кГц. Возможно вы наслаждаетесь интермодуляционными искажениями :-)
0
Mii #
Даже не знаю, какие могут быть несовершенства у арматурных iem. Но нет, это не 1кгц, я как бы уже частотно отфильтровывал ту часть, которая вызывает нарекания в 44.1, пока вы тут многие хотят доказать что черное это белое.
0
Mii #
А так, как бы да, рип виниловый, в спектре наблюдаются пики и выше 22, но совсем небольшие. Собственно отфильтровано выше и ниже эквалайзером из audacity, разница есть. Именно в районе 5-7 килогерц наблюдается недостаток детальности в фрагменте в 44.1
0
evtomax #
Взял эту HTML страничку, сохранил как audio.raw. Открыл в Audacity, как 24-битный файл с частотой дискретизации 96000 Гц. Обрезал фильтром GLAME Lowpass все частоты выше 20000 Гц, уменьшил амплитуду, чтобы был запас в пару дБ. Сохранил результат с частотой 96000 Гц, и получил первый файл. Затем сохранил это во второй файл с частотой дискретизации 44100 Гц. Затем открыл второй файл и сохранил его с частотой дискретизации 96000 Гц. Открыл первый и последний файлы в разных дорожках. Одну из дорожек инвертировал, затем свёл дорожки в одну. Получил идеально ровную линию, т.е. отсутствие какой-либо разницы. Как вам такая магия? :-) Разница на самом деле есть (из-за неидеальности фильтра), но в диапазоне до 20000 Гц она находится на уровне -96 дБ.
0
Mii #
Подведем итоги: Настройки и алгоритм ресемплинга 96-44-96 можно отличить вслепую, а 44 от 96 отличить нельзя, -96 дБ можно уловить на слух, но нельзя отлчить на слух, 1кгц это или 22кгц (а в случае этого отрывка и вовсе от 5-7кгц).
Теперь я знаю все.
0
evtomax #
Из моего эксперимента, который может повторить каждый на произвольных данных, следует, что вы что-то делаете неправильно, если слышите разницу. Амплитуда исходника случайно не доходит до максимума на фрагменте, на котором вы отличаете файлы?
0
Mii #
Амплитуда там как раз минимальна во всем треке
0
Mii #
В общем послушал еще раз, libsamplerate sinc best interpolation, 100% определение при слепом тесте.
0
Mii #
Я повторил ваш эксперимент в еще более показательном виде, чем он является.
Сделал из 24/96 рандомного трека в audacity 16/44.1, из него сделал 16/22.05, инвертировал первый, свел во второй, вуаля, получил «идеально ровную линию, т.е. отсутствие какой либо разницы. Как вам такая магия? :-)

Ждем статью, что в 16/44.1 нет никакого смысла хранить музыку. И вместе весело смеемся над аудифилами, слушающими иногда cd-качество, объясняем им какие где галочки поставить и каким алгоритмом ресемплинга воспользоваться. *ушел пить шампанское*
0
evtomax #
В вашем эксперименте ошибка. 16/22.05 надо было сначала преобразовать в 16/44.1. При сведении инвертированного исходника 16/44.1 и неинвертированного второго файла 16/44.1 получились бы высокие частоты из первого.
0
Mii #
Я и так и так сделал, но значимый для эксперимента спектр находится находится в районе 5-7кгц, а со 100дБ он поднимается в районе 8-10кГц (если мне не изменяет память), так что для вас лично я не вижу хранить этот трек в качестве лучшем, чем 16/22050.
0
Mii #
Возможно, даже все треки, лучше конвертируйте-ка в 16/22 и живите с чувством выполненного долга. Потому что на других 24/96 я не ощущаю разницы и слепой эксперимент даже проводить не стану, а этот трек достаточно показателен для меня благодаря именно вам, потому что математически вычисленную разницу 24/96-16/44 я слышу даже не напрягая слух, и впредь в этот бессмысленный треп в комментах подобных статей даже вмешиваться не стану, ибо разница есть, и на технике выше среднего, оказывается, она более чем уловима даже на уровне чувственного восприятии, не говоря о математическом анализе
0
evtomax #
Если нет частоты выше 10 кГц, то этот файл действительно можно сохранить в 16/22050 без потери качества.

Если вы без суровой звукоизоляции от посторонних шумов что-то слышите на уровне -90 дБ не выкручивая громкость на полную, то вам к учёным надо возможности человеческого слуха уточнять :-)
0
Mii #
Кстати результат вашего эксперемента по сведению инвертированных ресемпленных треков я вполне себе хорошо слышу через iem, чего и вам желаю, но не слышу через ламповый усилитель на АС, хотя слепой эксперимент дает 100% в моем окружении как через iem, так и через АС
0
Mii #
P.S. На самом деле разница есть, но она находится на уровне -100 дб примерно в половине спектра
0
Mii #
PS ffd использует тот же распиаренный алгоритм в топике про слепое тестирование с best sinc interpolation
0
Mii #
PPS потому что он взят из libsamplerate. sox.exe делает то же самое.
0
Mii #
или не то же, но сути не меняет
+1
megalol #
Издания в 24/96 ремастерят, чтобы-таки впарить коллекционерам очередное унылое переиздание той хрени, которая писалась на магнитную ленту еще в 70-х. А если исходники одинаковые, то называть разницу «феноменальной» — это поддаваться аудиофильской обсессии, что добром не кончится.
0
Mii #
100% определяемую разницу в определенном фрагменте при слепом тестировании любым доступным адекватным способом, нарушающую статус и предназначение я называю феноменальной, только потому, что явление для меня строго определенное и почти математически точное. Тоесть в чисто филосовско-научном аспекте. То, как на чувственное восприятие оно оказывает/не оказывает, это уже следствие наличия/отсутствия важной информации в фрагменте.
Где вы там хрень увидели и магнитные ленты в 2000-х годах… Неаргументированный флуд в общем. То, что вы аудиофильство увидели, меня в общем-то мало беспокоит, я упомянул, что только в одном треке это слышу, и то, что слушаю постоянно в 24/96 я не говорил. Я вообще mp3 слушаю и часто онлайн.
0
Mii #
Вот специально так и сделал. Тест 24/49-16/44.1 пройден. На определенных участках результат слепого теста около 100%. плеер MPC+reclock без ресемплинга, исходник .flac: Desimal — Afterlife рип с винила, в районе первой минуты именно тот участок.
0
Mii #
Не там ответил, неудобно как)
0
VEG #
24/49-16/44.1
Что? :) Предположим, исходник у вас в 24/96. Делайте ресэмплинг в 16/48, по возможности адекватным ресэмплером. Слушайте. Удивило, что вы музыку слушаете при помощи MPC — он же для видео :)
0
Mii #
mpc+reclock опять же, плохо читаете. Предлагаю погуглить влияние этой связки на звук
0
VEG #
ReClock — это всего-лишь аудио рендерер. От этого MPC не стал адекватным плеером для аудио.
0
Mii #
Он адекватно работает с reclock, этого для меня достаточно. Я послушал как перекодированный трек, так и ресемплированный на лету, результат 100% при слепом прослушивании на первой минуте в определенных моментах.
0
ValdikSS #
Э? Reclock же для другого совсем, он чтобы видеокадр точно под vsync подгонять, чтобы дрожания не было.
0
Mii #
Не буду вдаваться в суть исключительно положительного влияния reclock на воспроизведение аудио, но не я придумал, сам уволок с ixbt. Что-то там с джиттером связано в общем.
–1
Mii #
И, да, что мешает кроме самоограничения использовать что-то, для чего оно не было предназначено по своему усмотрению?
+1
ValdikSS #
Ну так это с видео связано. Он подгоняет видео под vsync, и аудио синхронизирует с видео. А у вас-то видео нет.
–1
Mii #
Ну, как бы аудиоконтейнер содержит фреймы, которые добавляются в поток, что как бы намекает, что синхронизации с чем-то, например временем, аудио поддается, более того, без нее не воспроизводится.
+1
ValdikSS #
Reclock синхронизирует видеокадр к обновлению экрана, и затем подгоняет аудио под синхронизированный кадр. Вот что он делает. А без видео он ничего не синхронизирует.
0
VEG #
Для просто аудио нам достаточно частоты дискретизации чтобы знать, как быстро воспроизводить какой-то поток сэмплов, ни с чем дополнительно его синхронизировать не нужно. Записали в буфер 50мс звука, заснули на 30мс, проснулись — дописали в буфер недостающее (система сама сообщает нам, сколько данных можно дописать в буфер). Никакой магии. Фреймы в некоторых форматах аудио нужны только для личных нужд формата, при декодировании когда нам нужны ещё сэмплы, а фрейм уже закончился — просто берём следующий фрейм и декодируем из него нужное количество сэмплов, которые умещаются в буфер. Но никак дополнительно по ним синхронизироваться не нужно.
0
Mii #
Ключевые слова jitter + reclock. Гуглите.
0
kosmos89 #
jitter-то хоть чего у вас? Что за программный джиттер, который можно программно же исправить? Ничего не гуглится толкового по вашим словам.
0
VEG #
Причём тут вообще джиттер? Это из области ответственности качества аудиокарты и её драйвера. При воспроизведении программа должна только успевать подсовывать очередную порцию данных в буфер, но заботиться о том, чтобы это происходило в идеально точные отсчёты времени нет необходимости — главное, чтобы она это делала до того, как данные в буфере закончатся. Вы записали 2400 сэмплов (50мс при частоте дискретизации 48000) буфер — началось их воспроизведение. Вы можете подписаться на событие, чтобы система сама вас попросила дописать ещё данных, как только освободится место в буфере, либо можете сами просыпаться по таймеру, например, примерно раз в 30мс. Абсолютная точность здесь не нужна. Проснулись, посмотрели, что мы можем записать ещё 1400 сэмплов (это может быть и 1450, и 1350, в зависимости от того, сколько уже успело воспроизвестись) — записали и опять заснули. Мы подготавливаем данные наперёд, и они спокойно лежат в буфере, откуда они по мере необходимости копируются в какой-то небольшой буфер драйвера аудиокарты (через системный микшер или без него «как есть»), и уже из которого данные считываются аудиодрайвером, который уже и общается с железом — и там уже всё в его власти.

Недостаточно знать одно умное слово и отсылать всех искать его в гугле, нужно ещё и представлять, как оно в целом работает и что к чему относится.
0
VEG #
На всякий случай поясню. Независимо от рендерера аудио, конечной точкой всегда выступает драйвер аудиокарты. Сэмплы у нас всегда имеются с небольшим избытком, они просто копируются из одного буфера в другой. Иногда они могут как-то обрабатываться (тот же системный микшер), мнимые люди могут обеспечить bit perfect передачу. Но здесь просто негде проявиться джиттеру. Эта проблема возникает на более позднем этапе, где-то рядом и непосредственно при преобразовании цифры в аналог.
0
Mii #
С чего вы взяли, что я просто знаю одно умное слово? Связка возникла давно и не на пустом месте, просто мне как бы не интересно уже, но продолжаю пользоваться, хотя, было дело, в сорцах используемых библиотек копался.
0
Mii #
Механизм вроде бы до конца не ясен, но уверен, что знающие люди с форумов изучили вопрос несколько лучше, чем слепая вера в «не нужно»
0
VEG #
Хм. Знающие люди с форумов — весьма серьёзный аргумент. Никак не поспоришь. Хорошо, что хоть не одна бабка сказала.
0
Mii #
Всяко лучше, чем гуглить за вас влияние промежуточных этапов на джиттер или противостоять серьезным аргументам из области common knowlege, вырванным из контекста
0
Mii #
Для всех тех, кто в танке, тема изъезжена вдоль и поперек на оф. форуме реклока, на ixbt, как самим разработчиком, так и пользователями.

Вот отрывок из официального ридми реклока: «You also have the ability to disable completely the system and audio clocks adaptation using the checkbox “slave reference clock to audio”. Doing so, ReClock will work much like the default DirectSound audio renderer, but rate adaptation will still function and reference clock will be slaved to audio clock with a smooth algorithm.»

Вот отрывок из msdn касательно Filter Graph Default Reference Clock: If no filter provides a suitable clock, use the System Reference Clock, which is based on the system time, что в общем-то намекает, с чего клок берется в дефолте.

Имхо гуглить вещи и объяснять их тут по-моему моветон для gt. Но, вы знаете, мне не сложно, когда просто спрашивают в чем фича, а не с ходу в лоб критикуют не разобравшись в вопросе.
0
Mii #
В общем в любом случае system timer или алгоритмы DS не лучший вариант для аудио, отсюда и все движение вокруг аудио через реклок, и чем все это лучше, чем тот же wasapi в foobar2k
0
kosmos89 #
>Вот отрывок из msdn касательно Filter Graph Default Reference Clock: If no filter provides a suitable clock, use the System Reference Clock, which is based on the system time, что в общем-то намекает, с чего клок берется в дефолте.
Ну что за слабоумие-то такое? А предыдущие три пункта для кого написаны? Приведу третий из них сюда (ибо интересен именно он):
-If the graph does NOT contain any live source filters, use any filter in the graph that supports IReferenceClock, starting from the renderers and working upstream. Prefer connected filters over unconnected filters. (If the graph is rendering an audio stream, this step in the algorithm will normally select the audio renderer filter.)
И только потом:
-If no filter provides a suitable clock, use the System Reference Clock, which is based on the system time.
Говорится как раз то, что выберется Clock от звуковой карты. И только если она его не предоставляет, возьмется системный таймер (упрощено говоря). Вы нам тут либо пытаетесь ЛГАТЬ, либо вы настолько двинутый на звуке, что видите только то, что вам хочется видеть. Ну или не понимаете английский, в конце концов. Хотелось бы услышать ваш комментарий на этот счет.

Еще момент: вам, видимо, не нравится System Clock, но вот ведь что:
ReClock provides a reference clock based on a high-resolution timer based on hardware on your motherboard or your processor. Let’s call this clock the “system clock”. Then, ReClock will correct the system clock with information gathered in real time from your video card if they are available.
Т.е. ReClock сам работает на основе системных часов, просто корректирует их значение, чтобы лучше соответствовать Refresh Rate монитора. Потому что задумывался он ДЛЯ ВИДЕО. И под скорость видео он разными способами подстраивает скорость аудио, причем это неизбежно ИСКАЖАЕТ ЗВУК. Хотя сам автор использует слово degrade, я буду осторожней, ведь кому-то такой звук КАЖЕТСЯ приятнее.
В случае установки галочки «slave reference clock to audio», ReClock, судя по всему, корректирует значение системных часов, чтобы совпадать с таймером звуковой карты, вместо того чтобы использовать его напрямую. Но тогда получается как на картинке: lurkmore.so/images/b/bc/Pogon9et.jpg И ведет это к еще большему плаванию скорости звука. Потому что системный таймер никто не делает суперточным, в отличие от мультимедийного, который в звуковой карте. А именно это приведет к высокочастотным флуктуациям таймера, потому что низкочастотные сгладит этот самый алгоритм («reference clock will be slaved to audio clock with a smooth algorithm»). А высокочастотные его колебания — самые заметные.

В любом случае, совершенно бесполезно пытаться исправить один хороший мультимедийный таймер другим, техническим, не заточенным под мультимедийное применение, пытаясь подстраивать его под этот самый мультимедийный таймер. Причем в любом случае разница в скорости будет незаметной.

>в лоб критикуют не разобравшись в вопросе
Как мы выяснили, чья бы корова мычала…

Ох уж эти аудиофилы, какими только глупостями не занимаются. Если бы громкоговорители по штангенциркулю расставляли и голову тисками фиксировали — и то бы больше толку было.
+1
klirichek #
24 бита имеют смысл ради динамики (чтобы потом в звуковом редакторе «сделать погромче» и записать финальный микс в 16 бит, ничего не потеряв).
А вот 192кГц уже непонятно, для чего. Аудиозум?
0
MiXaiL27 #
Вопрос даже в другом — а какую акустическую систему нужно иметь, что бы она могла воспроизводить подобный звук?
0
klirichek #
Его вряд ли нужно воспроизводить. А вот хранить исходники для обработки — вполне.
Иными словами, для такого формата нужен только записывающий тракт (АЦП).
0
urticazoku #
Никто не может увидеть рентгеновское излучение (или инфракрасное, или ультрафиолетовое, или микроволны). Неважно, насколько сильно человек верит в то, что он может, сетчатка просто не имеет необходимых инструментов для того, чтобы их воспринимать.

Про УФ — это если нет искусственного хрусталика.
+3
ProLimit #
Имхо, 24 и 192 нужны только для студийного хранения и редактирования. Примерно как RAW и JPEG в фотографии. Никакому профессионалу не придет в голову снимать в JPEG, хотя финальный результат после обработки вполне нормально сохраняется и демонстрируется в JPEG. Хотя если есть покупатель на ethernet-кабели за 10000$, то найдется и для такого контента, чистый маркетинг.
0
dmitrykabanov #
Вторая часть и продолжение дискуссии.
0
MaGIc2laNTern #
Классно, что вы всё перевели! Я очень давно собирался перевести эту статью, но сделал только часть, потом был занят. :-)

Если интересно, посмотрите то, что я перевёл, здесь. Можете оттуда что-то скопировать, если понравится (например там переведены некоторые картинки).

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.