Компания EchoNest, специализирующаяся на разработке интеллектуального музыкального ПО, совместно с компаниями Musicbrainz и 7digital представила полностью открытую и свободную для коммерческого использования платформу распознавания музыкальных композиций Echoprint. Новая платформа должна стать конкурентом таким коммерческим сервисам как Shazam, Soundhound, Gracenote и Audible Magic.
Как и Shazam и ему подобные сервисы, EchoPrint представляет собой технологию, позволяющую идентифицировать исполнителя композиции, ее название и другие детали (такие как текст песни, отзывы в социальных сетях и блогах, ссылки на скачивание/прослушивание и т.д.) используя небольшой аудио-фрагмент, записанный с помощью микрофона портативного устройства или вырезанный из другой видео или аудио-записи. Для точной идентификации композиции используется база из сигнатур нескольких миллионов аудио-записей, составленная компанией 7digit.
Клиентское ПО, так называемый "генератор кодов" (в настоящий момент доступна только эталонная реализация для iOS) используется для записи фрагмента композиции, его очищения от шумов и создания сигнатуры, которая затем упаковывается с помощью JSON и отправляется серверной части по протоколу HTTP. Используя существующую базу сигнатур сервер находит соответствующую композицию и отправляет ее мета-данные клиентской стороне.
В настоящий момент платформа обладает следующими характеристиками:
- Корректная работа даже при наличии большого количества шумов в аудио-фрагменте.
- 250-кратная скорость обработки фрагментов, которая позволяет создать сигнатуру аудио-записи за десятую доли секунды.
- Для точной идентификации композиции требуется фрагмент, длиной не больше 20 секунд, в подавляющем большинстве случаев будет достаточно и в несколько раз более короткого фрагмента.
- Быстрая и масштабируемая серверная часть. Один выделенный сервер может обслуживать до 60 запросов в секунду.
Интересно, что EchoNest заявляет о полной открытости не только самого ПО, используемого для идентификации композиции, но и базы сигнатур. Однако, по условиям лицензионного соглашения любые расширения этой базы должны в обязательном порядке возвращаться обратно EchoNest. Такое условие, по словам представителей компании, будет выгодно всем, так как позволит общими усилиями создать действительно большую базу композиций, которую смогут использовать как обычные пользователи, так и коммерческие организации.
Получить исходный код клиентской и серверной частей, а также базу сигнатур можно на странице проекта в GitHub. Исходный код платформы распространяется на условиях лицензии MIT, для базы сигнатур создана собственная лицензия Echoprint Database License Agreement.