ABLETON | ИИ и создание музыки часть 1: что происходит
Слово "искусственный интеллект" вызывает смешанные эмоции. Оно может одновременно волновать, дарить надежду на будущее или даже вызывать дрожь ужаса перед грядущим. За последние несколько лет ИИ превратился из чего-то далекого в повседневную реальность.
Многие из нас используют ChatGPT для написания электронных писем и Midjourney для создания изображений. Кажется, что каждую неделю новая технология ИИ обещает изменить еще один аспект повседневности.
Музыка ничем не отличается. Технологии ИИ уже применяются в аудио, выполняя задачи от разделения стемов до имитации вокала, параллельно интегрируясь в новые варианты классических инструментов и интерфейсов для создания музыки. В скором времени, кажется, ИИ сможет даже сам создавать полноценную музыку.
Появление технологий ИИ вызвало жаркие споры в музыкальных сообществах. Идеи о творчестве, собственности и подлинности дали слабину. Одни приветствуют появление новых интересных инструментов, другие говорят, что технология переоценена и мало что изменит. Другие напуганы, опасаясь утраты практики и столь дорогой культуры создания музыки.
В этой статье, состоящей из двух частей, мы глубоко погрузимся в тему ИИ-музыкотворчества, чтобы попытаться разобраться в этой сложной и быстро развивающейся теме. Мы рассмотрим существующие инструменты ИИ для создания музыки, изучим творческие возможности, которые они открывают, и философские вопросы, которые они ставят. Попытаемся заглянуть в будущее, попутно разбирая, как инструменты ИИ могут изменить музицирование будущего.
Чем глубже погружаешься в тему, тем сложнее эмоции. Будущее может быть светлым, но оно также немного пугает.
Определимся с терминами
Прежде чем двигаться дальше, следует разобраться с рядом терминов.
Прежде всего, что такое ИИ? Ответ не так прост, как может показаться. Придуманный в 1950-х годах, этот термин с тех пор применялся к целому ряду различных технологий. В самом широком смысле ИИ относится ко многим формам компьютерных программ, которые, как кажется, обладают интеллектом, подобным человеческому, или могут выполнять задачи, для которых, как мы думали, требуется человеческий интеллект.
Бум ИИ в последние несколько лет основывается на конкретной технологии, называемой машинным обучением. Вместо того, чтобы полностью обучаться с помощью человека, система машинного обучения способна самосовершенствоваться, используя данные, которые ей предоставляются. Но машинное обучение существует уже несколько десятилетий. Новым является особый вид машинного обучения, называемый глубоким обучением.
Системы глубокого обучения состоят из нейронных сетей: набора алгоритмов, сконфигурированных примерно как человеческий мозг, которые могут интерпретировать поступающие данные и распознавать закономерности. Слово "глубокое" означает, что в этих сетях есть несколько слоев, что позволяет системе интерпретировать данные более сложным образом. Это делает систему глубокого обучения очень искусной в осмыслении неструктурированных данных. Другими словами, вы можете подбрасывать ей случайные картинки или текст, и она прекрасно справится с выявлением закономерностей.
Но системы глубокого обучения не являются "разумными" в том смысле, в каком их часто изображают в антиутопических фантастических фильмах о вольных ИИ. Они не обладают "сознанием" в нашем понимании — они просто очень хорошо умеют находить закономерности в данных. По этой причине некоторые утверждают, что термин "ИИ" — это неправильное название.
Сложность глубокого обучения делает его требовательным к процессорам, поэтому технология стала широко доступной только в последние несколько лет. Но технология глубокого обучения присутствует в нашей жизни дольше и в большем количестве, чем многие думают. Глубокое обучение используется в онлайновых языковых переводчиках, для обнаружения мошенничества с кредитными картами и даже в рекомендательных алгоритмах потоковых музыкальных сервисов.
Эти известные способы использования глубокого обучения ИИ в основном находятся под капотом продуктов и услуг. Недавно искусственный интеллект вышел на первый план. Такие инструменты, как Dall-E и ChatGPT, не просто просеивают поступающие данные, помогая человеку распознать закономерности. Они выдают результат, в котором пытаются угадать, что данные будут делать дальше. Это называется генеративным ИИ.
Если другие формы глубокого обучения проходят на фоне повседневной жизни, то генеративный ИИ привлекает к себе внимание. Представляя нам изображения, текст или другие формы медиа, он приглашает нас к диалогу с машиной. Он отражает человеческое творчество и делает потенциал — и проблемы — технологии ИИ более очевидными.
ChatGPT не подходит для музыки?
Технология глубокого обучения может быть применена к цифровому аудио так же, как и к изображениям, тексту и другим формам данных. Последствия этого весьма обширны, и мы подробно рассмотрим их в этих статьях. Однако ИИ аудио отстает от некоторых других применений этой технологии. Пока еще не существует ChatGPT для музыки. То есть нет инструмента, обученного на огромных объемах аудио, который мог бы принимать текст или другие виды подсказок и выплевывать соответствующую высококачественную музыку. (Хотя, возможно, скоро такой инструмент появится — подробнее об этом в части 2).
Этому есть несколько возможных причин. Во-первых, аудио — это принципиально иной вид данных, чем изображение или текст, как объясняет Кристиан Штайнметц, исследователь ИИ в области аудио в Университете королевы Марии. "[Аудио] имеет относительно высокую частоту дискретизации — в каждый момент времени вы получаете один образец, предполагая, что это монофонический звук. Но вы получаете 44 000 таких образцов в секунду". Это означает, что создание нескольких минут аудио — это эквивалент процесса создания невероятно огромного изображения.
Как отмечают исследователи аудио ИИ и новаторы Dadabots, это накладывает ограничение на скорость работы имеющихся в настоящее время систем. "Некоторые из самых качественных методов генерации необработанного аудио могут потребовать до суток для создания одной песни".
В отличие от изображений или текста, аудио имеет временное измерение. Для нас важно, как последняя минута песни соотносится с первой минутой, и это создает особые проблемы для ИИ. Музыку также сложнее достоверно описать словами, что делает ее устойчивой к подходу с использованием текстовых подсказок, который так хорошо работает для изображений. "Музыка — один из самых абстрактных видов искусства", -— говорят Dadabots. "Значение тембров, гармоний, ритмов зависит только от интерпретации слушателя. Бывает очень трудно объективно описать полную песню в сжатой форме, чтобы другие могли мгновенно ее представить".
К этому следует добавить, что наше слуховое восприятие кажется необычайно тонко настроенным. "Возможно, мы чувствительны к искажениям в звуке иначе, чем наша зрительная система", — говорит Штайнметц. Он приводит пример генеративной музыкальной модели Jukebox от OpenAI, запущенной в 2020 году — самой мощной на тот момент. Она могла создавать "суперубедительную музыку" в том смысле, что в ней присутствовали важные элементы. "Но с точки зрения качества она звучала очень плохо. Это почти как в аудио, если все находится не на своем месте, даже неподготовленный слушатель понимает, что что-то не так. Если же говорить об изображении, то мы можем сгенерировать много деталей в основном правильно, и получится достаточно убедительно. Вам не нужно, чтобы каждый пиксель был точно выверен".
Заманчиво заключить, что музыка -— это просто слишком твердый орешек, чтобы его расколоть: слишком таинственный, слишком эфемерный эстетический опыт, чтобы его могли уловить машины. Это было бы наивно. На самом деле, усилия по разработке эффективных музыкальных инструментов ИИ в последние годы только получают большие масштабы.
Идет гонка за созданием "общей музыкальной модели" — то есть генеративного музыкального ИИ, обладающего универсальностью и мастерством, эквивалентными Stable Diffusion или ChatGPT. Мы рассмотрим этот вопрос и его последствия для создания музыки во второй части этой серии.
Но существует множество потенциальных применений ИИ в музыке, не ограничивающихся мечтой о единой тотализирующей системе. От генеративного MIDI до причудливо звучащего синтеза, от автоматизированного микширования до аналогового моделирования — инструменты ИИ способны встряхнуть процесс создания музыки. В первой части мы изучим некоторые из существующих сейчас инструментов и получим представление о том, как эти инструменты могут развиваться в будущем. В процессе мы рассмотрим, что эти инструменты могут означать для музыкального творчества. Угрожает ли ИИ человеческому творчеству или просто дополняет его? Какие аспекты музыкального творчества могут измениться, а какие, скорее всего, останутся прежними?
Автоматизация продакшна
На этом этапе вы, возможно, запутались. Если вы являетесь музыкальным продюсером или другим профессионалом в области аудио, "инструменты для производства музыки с искусственным интеллектом" могут показаться не такой уж новой идеей. На самом деле, тег "ИИ" уже давно витает в мире музыкальных технологий.
Например, компания iZotope интегрировала ИИ в такие продукты, как универсальный микшерный пульт Neutron 4. Mix Assistant этого плагина прослушивает весь микс и анализирует взаимосвязи между звуками, организуя тем самым автоматизированный микс, который уже можно настроить по своему вкусу.
Такие компании, как Sonible, предлагают "умные" версии классических эффектов, таких как компрессия, реверберация и эквалайзер. Эти плагины слушают входящий звук и автоматически адаптируются к нему. Например, pure:comp предлагает всего один основной регулятор "компрессия", который одновременно управляет такими параметрами, как порог, коэффициент, атака и ослабление.
Другие инструменты предлагают автоматизировать те аспекты продакшна, которые многие продюсеры склонны передавать на аутсорсинг. LANDR создаст автоматизированный искусственным интеллектом мастер вашего трека за долю стоимости найма профессионального мастеринг-инженера. Вы просто загружаете свой премастер на их сайт, выбираете один из нескольких стилей мастеринга и уровней громкости и скачиваете отмастерингованный продукт.
Какова связь между этими инструментами и технологиями глубокого обучения, которые сейчас гремят на весь мир? Здесь мы снова возвращаемся к расплывчатости термина "ИИ". Глубокое обучение — это один из видов технологий ИИ, но не единственный. До этого существовали "экспертные системы".
Как объясняет Штейнметц, этот метод работает "путем создания дерева вариантов". Он описывает, как автоматизированный инструмент микширования может работать по этому методу. "Если жанр — джаз, то переходим к одной части дерева. Если это джаз, а инструмент — пианино, то к другой. Если это пианино и там много энергии на частоте 60 герц, то, возможно, ее надо прибрать. Надо придумывать правило для каждого возможного сценария. Если сможете создать достаточно сложный набор правил, то в итоге получите систему, которая будет казаться разумной".
"Если вы делаете работу, которая теоретически может быть автоматизирована — то есть никого не волнует специфика художественного результата, нам просто нужно, чтобы он соответствовал какой-то форме — то эта работа, вероятно, в конечном итоге будет автоматизирована".Трудно сказать наверняка, какие технологии используются в отдельных продуктах. Но вполне вероятно, что инструменты музыкальных технологий на основе ИИ, существующие уже более нескольких лет, используют некоторые вариации этого подхода. (Конечно, методы глубокого обучения могли быть интегрированы в эти инструменты совсем недавно).
Этот подход эффективен при хорошем исполнении, но у него есть ограничения. Как объясняет Штейнметц, такая технология требует, чтобы опытные аудиоинженеры сели с программистами и написали все правила. А как известно каждому, кто микшировал трек, следовать правилам не так-то просто. Опытный инженер сведения принимает бесчисленное количество тонких решений и находчивых ходов. Количество правил, необходимых для полного отражения этой сложности, просто слишком велико. "Проблема, по сути, заключается в масштабе”, - говорит Штейнметц.
Вот здесь и приходит на помощь глубокое обучение. Помните: системы глубокого обучения могут самообучаться на основе данных. Они не нуждаются в микроуправлении со стороны знающего человека. Чем больше релевантных данных им подается и чем больше процессорной мощности в их распоряжении, тем лучше они справляются с поставленной задачей.
Это означает, что модель глубокого обучения, работающая с большим объемом музыкальных данных, скорее всего, справится с задачей лучше, чем экспертные системы, а по некоторым показателям может даже превзойти человека, занимающегося сведением.
Это еще не реальность в аудиосфере, но Штайнметц указывает на классификацию изображений как пример того, как инструменты ИИ достигают такого уровня. "Лучшая модель, по сути, точнее человека классифицирует содержимое изображения, потому что мы обучили ее на миллионах изображений — большем количестве изображений, чем человек мог бы даже просмотреть. Так что это действительно мощно".
Это означает, что ИИ, вероятно, станет очень хорош в различных технических задачах, которые музыкальные продюсеры до сих пор считали неотъемлемой частью работы. Начиная с микро-задач, таких как настройка атаки и затухания компрессора, и заканчивая такими сложными задачами, как окончательная обработка всего микса. ИИ вскоре может стать вашим собственным штатным инженером.
Как это изменит ситуацию для создателей музыки? Штайнметц проводит аналогию с демократизацией цифровой фотографии благодаря камерам для смартфонов. Профессиональные фотографы, которые занимались повседневной работой, например, документированием событий, проиграли; спрос на фотографов высокого искусства остался прежним.
"В микшировании или аудиоинженерии все примерно так же. Если вы делаете работу, которая теоретически может быть автоматизирована — то есть никого не волнует специфика художественного результата, нам просто нужно, чтобы он соответствовал какой-то форме — то, вероятно, в конечном итоге эта работа будет автоматизирована". Но когда реализуется творческое видение, технология не сможет заменить человека, принимающего решения. Художники будут использовать "ИИ как инструмент, но они все равно будут сидеть в кресле пилота. Они могут позволить инструменту принимать некоторые решения, но не итоговое".
Конечно, это не успокоит тех, кто зарабатывает на жизнь с таким трудом приобретенными навыками продюсера или инженера в более функциональных областях. Также стоит задаться вопросом, не пострадает ли от этого следующее поколение продюсеров. Существует творческий аспект того, как именно вы сжимаете, эквалайзируете и так далее. Если технология автоматизирует эти процессы, не упустят ли продюсеры способы найти новые творческие решения старых проблем — и совершить потенциально продуктивные ошибки?
С другой стороны, автоматизируя эти задачи, создатели музыки высвободят время и энергию, которые смогут потратить на расширение творческого диапазона своей музыки другими способами. Многие задачи, которые современная DAW выполняет за секунды, в эпоху аналоговых студий требовали огромных ресурсов, рабочего времени и мастерства. В результате мы не считаем музыку, созданную на современных DAW, творчески обедненной. Напротив, центр творчества сместился, поскольку новые звуки, техники и подходы стали доступны все большему числу музыкантов.
"Это правда, что некоторые тривиальные аспекты музыкального продакшна, вероятно, будут вытеснены инструментами, которые смогут облегчить их", — говорит Мэт Драйхерст, соучредитель, вместе со своим партнером, музыкантом Холли Херндон, компании Spawning, занимающейся разработкой ИИ. "Но это просто меняет базовые представления о том, что мы считаем искусством. В целом, мы ценим тех художников, которые по той или иной причине отклоняются от базовой линии, и в эпоху ИИ будут великие художники, как и в любую другую эпоху".
В начале был MIDI
Провести различие между функциональными задачами продюсирования и творческими относительно легко, когда речь идет о таких процессах, как, например, сведение. Но как насчет композиции? ИИ может предложить что-то и здесь.
Ранней попыткой применения машинного обучения в этой области стала Magenta Studio — проект исследовательской лаборатории Magenta компании Google, который в 2019 году стал доступен в виде набора инструментов Max For Live. Эти инструменты предлагают различные варианты генерации MIDI-нот: создание новой мелодии или ритма с нуля; завершение мелодии на основе заданных нот; "морфинг" между двумя мелодическими клипами. Обученные на "миллионах" мелодий и ритмов, эти модели предлагают более сложные — и, возможно, более музыкальные — результаты, чем традиционные генеративные инструменты.
Генерация MIDI-нот с помощью искусственного интеллекта была продвинута дальше такими компаниями, как Orb Plugins, которые встроили данную функцию в набор обычных мягких синтезаторов (ситуация схожая с плагинами Captain от Mixed In Key). Тем временем ритм-секвенсоры начали использовать ту же технологию, но уже для встряски ритм-секций.
Почему так рано возник интерес к MIDI? Нотация MIDI — это намного проще, чем 44 000 сэмплов в секунду в аудио, а значит, модели могут быть не такими комплексными и с ними работать легче. Когда технология находилась в зачаточном состоянии, MIDI был очевидным местом для старта.
Конечно, компактность MIDI имеет свои ограничения. Питчи и ритмы — это только часть музыкальной картины. Несколько лет назад Dadabots, в ответ на такую любовь к MIDI среди хакеров машинного обучения/музыки, писали: "MIDI — это только 2% того, что можно любить в музыке. Нельзя получить Merzbow в формате MIDI. Нельзя передать атмосферу блэк-металлической пластинки. Вы не можете получить тембр гитары Джими Хендрикса, саксофона Колтрейна или MC Ride. Чистый MIDI — это эрзац".
По мере совершенствования технологии искусственного интеллекта и увеличения мощности процессоров появляются инструменты, позволяющие музыкантам работать непосредственно с необработанным звуком. Так неужели инструменты ИИ на основе MIDI уже ушли в прошлое?
Скорее всего, нет. Большинство современных музыкантов используют MIDI и другие "символические" музыкальные языки. Электронные продюсеры вводят ритмы в секвенсор, рисуют ноты на пианино и используют приемы, основанные на традициях теории музыки (такие как ключи и лады). ИИ может многое здесь предложить. Помимо генерации идей, мы могли бы использовать инструменты ИИ на основе MIDI для точной транскрипции аудио в ноты и для выполнения сложных преобразований MIDI-данных. (Например, преобразование ритмов или мелодий из одного стиля или жанра в другой).
В своем выступлении Джулиан Ленц из компании Qosmo, специализирующейся на создании музыки с помощью искусственного интеллекта, отметил, что необработанные аудиомодели пока не способны постичь основы теории музыки. Например, MusicLM от Google, недавняя общая музыкальная модель, обученная на сотнях тысяч аудиоклипов, с трудом различает мажорный и минорный ключи. В заключение Ленц продемонстрировал новый плагин Qosmo, который берет простой отстукиваемый ритм и превращает его в сложное исполнение на ударной установке. В то время как инструменты искусственного интеллекта на основе необработанного звука остаются несколько неактуальными, инструменты на основе MIDI могут предложить более быстрые пути к вдохновению.
Такие инструменты ставят непростые вопросы об авторстве творчества. Если плагин на основе ИИ генерирует для вас мелодию, следует ли считать вас "композитором" этой мелодии? А если вы создали мелодию с помощью модели ИИ, обученной на песнях группы "Битлз"? Является ли мелодия вашей, принадлежит ли она ИИ или же заслуга должна принадлежать "Битлз"?
Эти вопросы относятся ко многим формам создания музыки с помощью ИИ, и мы вернемся к ним во второй части. Пока же достаточно сказать, что, когда речь идет о генерации мелодий и ритмов на основе MIDI, вопрос о присвоении авторства уже давно перестал быть простым. Современные электронные композиторы часто используют рандомизаторы нот, сложные арпеджиаторы, генераторы евклидовых ритмов и так далее. Сгенерированный материал рассматривается как отправная точка, которая должна быть просеяна, отредактирована и аранжирована в соответствии с творческим видением создателя музыки. Инструменты искусственного интеллекта могут дать нам более убедительные результаты с самого начала. Но человеку-субъекту все равно придется решать, как сгенерированные результаты вписываются в его творческое видение.
Передача тембра: Исследование новых звуков
Когда думаешь о такой радикально новой технологии, как искусственный интеллект, ненароком представляются дикие новые звуки и текстуры. MIDI не об этом. Тут скорее нужно обращаться к аудиосфере.
В развивающейся области "нейронного синтеза" одной из доминирующих технологий является тембральный перенос. Проще говоря, тембральный перенос принимает на вход один звук и заставляет его звучать как другой. Голос становится скрипкой; скрип двери превращается в Amen break.
Как это работает? Модели передачи тембра, такие как RAVE ("Realtime Audio Variational autoEncoder") от IRCAM, включают две нейронные сети, работающие в тандеме. Одна кодирует получаемый звук, записывая его в соответствии с определенными параметрами (например, громкостью и высотой тона). Используя эти записанные данные, другая нейронная сеть затем пытается восстановить (или декодировать) входной сигнал.
Звуки, которые выдает автоэнкодер, зависят от того, на каком звуке он был обучен. Если вы обучали его на записи флейты, то декодер будет выдавать звуки, похожие на флейту. Именно здесь и происходит "передача тембра". Если вы подадите кодировщику, обученному на флейте, человеческий голос, он все равно будет воспроизводить звуки флейты. В результате получается странная смесь: контуры голоса и тембр флейты.
Передача тембра уже доступна в ряде плагинов, хотя ни один из них еще не был представлен на массовом рынке. Возможно, самым доступным является Neutone от Qosmo, бесплатно загружаемый плагин, который позволяет опробовать ряд техник нейронного синтеза в вашей DAW. К ним относятся RAVE и другой метод передачи тембра под названием DDSP (Differentiable Digital Signal Processing). DDSP — это своего рода гибрид технологии кодирования и DSP, используемых в обычном синтезе. Его легче обучить, и он может давать более качественное звучание на выходе — при условии, что входной звук монофонический.
Технология передачи тембра уже несколько лет пробивает себе дорогу в выпускаемую музыку. В одном из ранних примеров, треке "Godmother" из альбома Holly Herndon PROTO, перкуссионный трек продюсера Jlin пропускается через модель передачи тембра, обученную на человеческом голосе. В результате получается жуткое исполнение битбокса, полное странных деталей и зернистых артефактов.
В "Godmother" есть черты исследования, как будто он прощупывает новый звуковой ландшафт. Это обычное качество для музыки, созданной с использованием тембрального переноса. В альбоме A Model Within продюсера Скотта Янга пять экспериментальных композиций, обладающих именно таким качеством. Каждая из них исследует различные предустановленные модели, найденные в Neutone, запечатлевая незнакомое взаимодействие между человеком и машиной.
Еще до того, как он столкнулся с инструментами искусственного интеллекта, насыщенная жизнь заставила Янга заинтересоваться подходами генеративной композиции. Продюсер вспоминает то, как он начинал: "Я потратил месяц на создание мелодии. Это было довольно романтично. Но моя жизнь в Гонконге не позволяла мне делать это слишком часто. Поэтому я постепенно освоил генераторы Reaktor, создавал последовательности и сшивал их вместе".
В прошлом году музыкант Имс предложил ему еще больше ускорить процесс с помощью генеративного искусственного интеллекта. Янг начал исследовать и наткнулся на RAVE, но ему с трудом удалось заставить его работать, несмотря на его опыт в разработке программного обеспечения. Затем он обнаружил Neutone. "Предварительно созданные модели были настолько впечатляющими, что я с нетерпением начал творить с их помощью. Результаты были просто умопомрачительными. Получается очень реалистично".
Типичный страх, связанный с инструментами искусственного интеллекта, заключается в том, что они могут устранить творческий подход в создании музыки. Опыт Янга с передачей тембра был прямо противоположным. Модели передачи тембра — по крайней мере, на данный момент — темпераментны. Качество звука нестабильно, и они реагируют на входные данные непредсказуемым образом. Для Янга эта непредсказуемость открывает путь к избавлению от надоевших привычек. "В процессе создания [музыки] гораздо больше внимания уделяется случайности, потому что не всегда можно предсказать результат на основе того, что играешь".
После того, как материал был сгенерирован, ему все равно нужно было соединять его в увлекательную композицию — этот процесс он сравнил с монтажом живых джазовых записей. "При использовании генеративного подхода ключевым моментом для человека как творца является знание того, где нужно подрезать и соединить кусочки в нечто значимое,вызывающее отклик".
В самой нелепой композиции EP, "Crytrumpet", Янг подает запись плача своей маленькой дочери через модель, обученную игре на трубе. Подобные моменты точно отражают всю необычность технологии искусственного интеллекта. Но передача тембра — далеко не единственное потенциальное применение ИИ в плагинах.
В марте Штайнметц совместно с Эндрю Файфом из Qosmo и платформы Audio Programmer организовал конкурс нейронных аудиоплагинов. Цель конкурса — стимулировать инновации, предлагая денежные призы за наиболее впечатляющие работы. "Что касается создания нейронных сетей в плагинах, то это еще не было налажено", — говорит Штейнметц. "Нам нужен способ стимулировать больше людей работать в этом пространстве, потому что я знаю, что здесь можно сделать что-то, что будет иметь большое значение".
Из 18 работ, представленных на конкурс, некоторые предлагали нейронный подход к традиционным эффектам, таким как компрессия, а другие — генеративные инструменты на основе MIDI. Были и более неожиданные идеи. Vroom, инструмент звукового дизайна, позволяет генерировать отдельные звуки с помощью текстовых подсказок. HARD — это новый "аудио-ремиксер", позволяющий независимо друг от друга переходить от гармонической к ритмической части двух треков. Все участники должны были выложить свой код в открытый доступ, и Штайнметц надеется, что будущие разработчики плагинов будут развивать их работу. Он видит начало "движения людей, заинтересованных в этой теме".
Аналоговое моделирование
Итак, ИИ может создавать новые звуки. Но он также может создавать и старые — возможно, даже лучше, чем мы. Аналоговое моделирование является краеугольным камнем индустрии плагинов. По мнению некоторых, ИИ может стать его будущим. Такие плагины, как TAIP от Baby Audio (эмулирующий "европейский магнитофон 1971 года") и Neural Q от Tone Empire ("известный винтажный немецкий эквалайзер"), используют методы на основе нейронных сетей вместо традиционных методов моделирования.
Baby Audio объясняют, как это работает, на своем сайте:
"Если обычная DSP-эмуляция подразумевает "угадывание" влияния различных аналоговых компонентов и их взаимных зависимостей, мы можем использовать искусственный интеллект / нейронные сети для точной расшифровки звуковых характеристик, которые заставляют магнитофон звучать и вести себя так, как он звучит. Это происходит путем подачи алгоритму различных обучающих данных о сухом и обработанном аудио и обучения его определению точных характеристик, составляющих разницу. После того как ИИ усвоит эти различия, мы сможем применить их к новому звуку".
Зачем использовать ИИ вместо традиционных методов моделирования? Одна из причин — лучшие результаты. Tone Empire утверждают, что традиционное моделирование схем "никогда не сможет дать столь же достоверную эмуляцию аналогового звука", как подходы на основе ИИ.
Другая причина — скорость. Аналоговое моделирование с использованием нейронной обработки потенциально может сэкономить много времени и денег для компаний, производящих плагины. Это означает, что мы можем столкнуться с распространением недорогих и высококачественных аналоговых моделей, что не так уж плохо для производителей, которым нравится играть с новым.
Более радикально, это означает, что моделирование может быть передано в руки самих музыкантов. Это уже происходит в мире гитар, благодаря таким компаниям, как TONEX и Neural DSP. Напольное моделирующее устройство Quad Cortex компании Neural DSP оснащено функцией Neural Capture, основанной на искусственном интеллекте. Она позволяет гитаристам моделировать собственные усилители и педали. Все просто: Quad Cortex посылает тестовый тон через целевое устройство и, основываясь на выходном аудиосигнале, создает высококачественную модель в считанные мгновения.
Это открывает захватывающие возможности. У многих из нас есть одна старая сломанная педаль или часть рэкового оборудования, чье идиосинкразическое звучание нам нравится. Что, если бы вы могли смоделировать ее для дальнейшего использования прямо из коробки и затем поделиться такой моделью с друзьями? До сих пор моделирование было уделом технических специалистов. Захватывающе думать о том, что музыканты могут с ним сделать.
Демократизация музыкальных технологий
Тема передачи ранее специализированных технических задач в руки музыкантов всплывает снова при изучении инструментов ИИ. Для Штайнметца аналоговое моделирование — лишь одно из применений технологии глубокого обучения, причем не самое захватывающее. Он предлагает нам представить себе инструмент, подобный Midjourney или Stable Diffusion, но вместо того, чтобы создавать изображения по команде, он генерирует новые аудиоэффекты.
"[Это] позволяет любому создать эффект, потому что для этого не нужно быть программистом. Я могу искать в генеративном пространстве — точно так же, как я мог бы искать в Stable Diffusion — тона или эффекты. Я могу открыть для себя какой-то новый эффект и поделиться им со своими друзьями или использовать его для собственного продакшна. Это открывает гораздо больше возможностей для творчества".
Ранее мы уже говорили о том, что некоторые задачи продакшна могут быть автоматизированы искусственным интеллектом, что позволит музыкантам сосредоточить свое творчество в других областях. Одной из таких областей могут быть инструменты для продакшна, которые они используют. Технология ИИ может позволить каждому иметь свой собственный набор инструментов для создания музыки. Возможно, сделать этот набор инструментов максимально творческим и уникальным будет важно так же, как сегодня эквалайзер или компрессия.
Штайнметц предполагает, что "вырастет порода программистов/музыкантов/аудиоинженеров, людей, которые одновременно занимаются техникой и музыкой". Эти люди будут либо находить творческие способы "сломать" имеющиеся модели ИИ, либо "создавать свои собственные новые модели, чтобы получить какой-то новый звук специально для своей музыкальной практики". Он рассматривает это как последнюю итерацию давних отношений между художниками и их инструментами. "Каждый раз, когда на сцене появляется [новый] синтезатор, всегда находятся музыканты, которые придумывают, как его доработать и сделать своим".
Драйхерст также видит будущее в создании художниками своих собственных моделей, как он и Херндон делали это для PROTO и других проектов. "Я чувствую, что это ближе к тому, как многие продюсеры захотят использовать модели в будущем, создавая, так сказать, свою собственную "установку", которая дает уникальные результаты. Я думаю, что со временем мы также начнем рассматривать сами модели как новое средство выражения, которым можно поделиться и испытать. Я думаю, что именно здесь все становится очень интересным и новым; может оказаться, что взаимодействие с моделью художника будет таким же обычным, как взаимодействие с альбомом или другим традиционным форматом. Мы еще едва коснулись поверхности этих возможностей".
Текст: Angus Finlayson
Изображения: Veronika Marxer
- Комментарии