Поиск дубликатов аудиофайлов: кто лучшеАвтор: Иван Афанасьев Опубликовано: 09.04.2012 Источник: SoftKey.info 
С аудиофайлами существует одна очевидная, по крайне мере для меломанов, проблема – это отсутствие связи между собственно содержимым файла, то есть, например, музыкой и его описательной частью. Под описательной частью подразумеваются имя файла и набор специальных тегов для хранения данных об исполнителе, композиции, альбоме и так далее. Недаром существует множество программ, которые с той или иной эффективностью заполняют эти теги и переименовывают файлы, исходя из анализа композиции и по поиску данных в Интернете. Но даже при идеально организованной аудиоколлекции все равно случается, что одна и та же композиция существует в нескольких экземплярах, полученных из разных источников.
Поиск дубликатов поможет не только избавиться от повторов, навести порядок, освободить место на носителе. Он поможет просто проанализировать вашу коллекцию, поможет организовать сборники, найти искомую песню в разных изданиях, релизах разных лет, синглах.
Данный обзор построен в виде сравнительного теста. В качестве подопытных выступают две программы: Audio Comparer от Bolide Software и Music Duplicate Remover от Maniac Tools. Оба продукта обещают высокоэффективное сравнение аудиофайлов не только по тегам, именам и техническим характеристикам (размер, качество), но и по содержимому. Как заявлено в аннотациях, программы "слушают" музыку и анализируют сходство. Насколько это соответствует действительности и какая из программ точнее находит дубликаты – это и есть предмет теста.
 | | Опытный материал |
В качестве материала для проверки были взяты пять композиций одного всемирно известного ансамбля, играющего энергичную и достаточно сложную музыку с уникальным характерным звуком и узнаваемым меломанами вокалом. Из этих композиций было собрано четыре группы – оригинальная студийная запись с полностью заполненными тегами, она же, но с неправильными тегами и корявыми именами, случайно вырезанные фрагменты, примерно в 2/3 длины от общей продолжительности, и, наконец, те же самые песни, но в виде концертной записи. В идеале если программа действительно "слушает" и анализирует содержимое аудиофайлов, то она должна, на мой взгляд, определить, что во всех четырех группах находятся одинаковые музыкальные композиции. Забегая вперед скажу, что проблем со сравнением и идентификацией файлов между оригинальной группой и группой с неправильными тегами не возникло у обеих программ. А вот с фрагментами и концертной записью результаты более интересные.
Audio Comparer
 | | Audio Comparer |
Интерфейс обоих программных продуктов в целом одинаковый. В панели слева – проверяемые файлы, в списке справа – найденные дубликаты и инструменты по дальнейшей работе с ними. Работа в Audio Comparer основана на формировании некой цифровой базы данных всех сравниваемых файлов и записи ее в отдельный файл – аудиогруппу. В этой аудиогруппе хранится то, что программа "услышала". Таких аудиогрупп может быть несколько. Сравнение происходит либо внутри одной группы, либо между двумя разными. Результаты сравнения также записываются в отдельный файл и могут быть открыты и проанализированы отдельно, например для контроля или анализа динамики изменения вашей коллекции.
Собственно, сам процесс поиска может быть инициализирован двумя способами – с помощью мастера или вручную. Мастер пошагово вас проведет по всем необходимым настройкам, запросит имена файлов для записи аудиогруппы и результатов (эти файлы обязательны). Шагов всего четыре, и как раз на третьем шаге вы можете выбрать способ сравнения – полное совпадение или относительная похожесть. Скорей всего, этот поиск похожих аудиофайлов и основывается на "прослушивании" их программой и составлении некоего индекса, записываемого в файл аудиогруппы. В немногочисленных настройках есть некий порог похожести, измеряемый от 50 до 100 процентов. Как написано в подсказке, если программа определит сходство в менее чем установленный порог, то композиция не будет определена как дубликат.
 | | Мастер настроек |
Несмотря на установку различных способов сравнения и настроек, сходство было установлено только между группами оригинальных файлов и файлов с неправильными тегами. Из этого можно сделать два вывода: первый - программа действительно "слушает" композиции, так как иного способа найти сходство не было. Второй вывод не такой радостный – сходство подтверждается, только если файлы практически полностью идентичны. Ни по вырезанным фрагментам, ни по концертным записям дубликаты найдены не были.
Тем не менее с задачей минимум программа справилась. Композиции одного исполнителя, попавшие в вашу коллекцию разными путями и хранящиеся в разных местах, скорее всего, будут найдены. В полученном списке любой файл можно тут же прослушать, просмотреть и откорректировать теги, а также принять решение о дальнейшей его судьбе – удалить, переместить, скопировать в другое место. Если программа вдруг ошиблась, то файл можно пометить как композицию, отличную от искомой. Все операции могут выполняться массово по отмеченному вами списку. Отметки также автоматизированы, программа может сама выбрать, например, все файлы с более высоким или низким качеством, учитывая группировку по дубликатам. Это поможет вам разобраться с вашей коллекцией и оставить в ней только уникальные файлы.
 | | Настройки сравнения |
Music Duplicate Remover
 | | Music Duplicate Remover |
Результаты работы этой программы сильно зависят от настроек сравнения. Особенно это касается поиска дубликатов по звуку. С опциями по умолчанию при первом запуске вообще получилась удручающая картина – было найдено всего одно совпадение двух файлов из оригинальной группы и с неправильными тегами у которых случайно эти теги все-таки совпали. Но выбрав схему поиска и по тегам, и по звуку и настроив "чувствительность" программы, был получен тот результат, который является целью всего обзора. Композиции из групп с оригинальными файлами, с неправильными тегами и с фрагментами были определены как дубликаты со стопроцентной вероятностью. Из группы с концертной записью совпадение было найдено только по одному файлу из пяти с вероятностью 68%. В принципе, конечно, студийная и живая записи – это разные файлы и они оба имеют право присутствовать в коллекции. Но с точки зрения качества алгоритма сравнения, на мой взгляд, это очень хороший результат. Дубликаты определяются именно по звучанию так, как это слышит человек.
 | | Настройки сравнения |
Интерфейс Music Duplicate Remover довольно дружественный, хотя с настройками без прочтения помощи сразу разобраться не получится. Дело в том, что все они представлены просто полями для ввода цифр. Сразу вспоминается анекдот про "Петька, приборы! 50! Что 50?". На самом деле для сравнения по тегам используются так называемые весовые коэффициенты в процентном представлении. Звучит страшно, но в действительности все просто – тот тег, у которого стоит больший вес, будет играть более важную роль при сравнении. То есть, например, если у файлов одинаковый тег названия композиции, но разные исполнители и у исполнителя стоит большая важность – файлы будут признаны разными. Со сравнением по звуку все немного сложнее. Параметров тут два, но их технический смысл я так и не смог определить. Если по-простому – то чем меньше опция "пороговое значение", тем меньше будет точность сравнения и тем больше вероятность, что файлы будут признаны одинаковыми. Параметр максимальной разницы работает наоборот – чем он больше, тем больше вероятность нахождения сходства. Хотелось бы, конечно, чтобы был альтернативный вариант настроек "для чайников" с каким-нибудь простым выбором типа "сильнее-слабее". Хотя наличие механизма сохранения схемы сравнения частично облегчит работу – можно настроить один раз, сохранить и пользоваться. Также программе не помешала бы в панели выбора файлов со структурой папок поддержка стандартного интерфейса Windows со всеми его "моими документами", коллекциями и так далее.
 | | Работа с дубликатами |
Осталось рассмотреть сам список дубликатов. Так как программа не всегда правильно определяет, так сказать, "оригинальный" оригинал композиции, то прямо в списке можно поменять местами файл, признанный дубликатом с корневым файлом, считающимся оригиналом. Тут же есть кнопка удаления. Причем удаление происходит не сразу, а через подобие корзины – списка на удаление. Физическое удаление происходит отдельной операцией. Кстати, что касается записей живого концерта, есть также список исключений, файлы из которого никогда не будут признаваться копиями и не будут ни удалены, ни добавлены в список сравнения.
Как вы понимаете, явным лидером теста оказался Music Duplicate Remover, хотя и Audio Comparer вполне работоспособен. По интерфейсу и общему впечатлению продукт Maniaс Tools тоже выглядит более выигрышно, главное - привыкнуть к упомянутой системе настроек сравнения. Плюсов, конечно, добавляет и наличие русскоязычной помощи, без которой было бы практически невозможно понять назначение некоторых элементов программы. И хотя в Audio Comparer есть встроенный редактор тегов, у Maniac Tools есть отдельный мощный продукт для работы с тегами, автозаполнения и поиска по базам данных в Интернете. |