Conference PaperPDF Available

Criação Mediada Tecnologicamente: O Fast Fourier Transform

Authors:

Abstract

This article aims to highlight some properties of the Fast Fourier Transform (FFT) that may have aesthetic/technical impact on a musical composition and, therefore, should be minimally acknowledge by the artist. To give a didactical contribution to the problem, at the end of the article, we present an OpenMusic library (a work in progress) that allows the visualization and understanding of each separate part of the FFT process.
1º Encontro Internacional de Pesquisa em Arte, Mídias e Tecnologia, UFMT, 23-25 de junho de 2021
Criação Mediada Tecnologicamente: O Fast Fourier Transform
Charles K. Neimog
1
Rodolfo Coelho de Souza
2
Resumo: Este texto tem o objetivo de evidenciar propriedades do Fast Fourier Transform (FFT) que
podem ter impacto na estética de uma composição musical e que, por isso, devem ser
minimamente conhecidas pelo artista. Para dar uma contribuição didática ao problema, no final
do texto apresentamos uma biblioteca de Open Music em português, ainda em desenvolvimento,
que permite visualizar e entender cada parte do processo do FFT separadamente.
Palavras-chave: Fast Fourier Transform, OpenMusic, Música Eletroacústica.
Technologically Mediated Composition: The Fast Fourier Transform
Abstract: This article aims to highlight some properties of the Fast Fourier Transform (FFT) that
may have aesthetic/technical impact on a musical composition and, therefore, should be minimally
acknowledge by the artist. To give a didactical contribution to the problem, at the end of the article,
we present an OpenMusic library (a work in progress) that allows the visualization and
understanding of each separate part of the FFT process.
Keywords: Fast Fourier Transform, OpenMusic, Electroacoustic Music.
1. Introdução
A transformada de Fourier foi concebida pelo matemático Joseph Fourier (1768-1830)
para decompor uma onda periódica em componentes senoidais (LOY, 2007, p. 103). O Fast
Fourier Transform (FFT), um algoritmo de otimização da Transformada de Fourier, é aplicado
na transposição de alturas, na compressão de dinâmicas, no time-stretching, em reverbs por
convolução, entre outras aplicações. A despeito de suas reconhecidas potencialidades, o FFT
também tem limitações que podem ficar ocultas atrás de interfaces gráficas que padronizam
os principais parâmetros da análise. Essa padronização facilita o uso desse processamento, no
entanto, pode reduzir a precisão na determinação das frequências, e do traçado da variação
das frequências e amplitudes no tempo. Entendemos que conhecer os detalhes de parâmetros
do FFT, e saber manipulá-los, evitará problemas como os descritos por Campos Júnior (2005,
p. 77-81) no caso do uso do aplicativo AudioSculpt na ressíntese de amostras sonoras ruidosas.
1
Universidade de São Paulo (USP), charlesneimog@outlook.com.
2
Universidade de São Paulo (USP), rcoelho@usp.br.
1º Encontro Internacional de Pesquisa em Arte, Mídias e Tecnologia, UFMT, 23-25 de junho de 2021
Em nosso processamento de áudio utilizamos uma implementação específica do FFT,
chamada de Short-Time Fourier Transform (STFT) (KLINGBEIL, 2009, p. 18). Nela divide-se uma
onda sonora em partes, e aplica-se o FFT a cada uma dessas partes. Avançando-se um
determinado número (hop size) de amostras digitais (samples) pode-se obter uma fotografia
de um trecho do espectro (frame). No STFT dois conceitos primordiais: o tamanho da janela
FFT (FFT size), que é o total de amostras do sinal sonoro que serão analisados por vez
necessariamente um expoente de 2 , e a hop size, que define a quantidade de amostras da
onda sonora que serão avançadas a cada cálculo de FFT, ou seja, o tamanho da janela.
O domínio dos processamentos sonoros envolvidos na composição musical com
recursos tecnológicos é relevante para o resultado musical pois neste persistem certas marcas
individualizadas das opções feitas pelo compositor, características que Caesar (2016) chama
de marcas tecnográficas. Nossa pesquisa almeja dar uma contribuição didática ao problema,
desenvolvendo uma biblioteca de OpenMusic, comentada em português, que permite
visualizar e entender cada parte do processo do FFT separadamente, tais como o passo a passo
dos cálculos aplicados no processo de conversão de um áudio para números e na conversão
do resultado do FFT para frequências (Hz).
2. Uma caracterização do Fast Fourier Transform
Uma das primeiras decisões a tomar no FFT é a escolha do tamanho de sua Janela (FFT
size). Essa escolha deve equilibrar duas tendências opostas. Quanto maior a janela FFT, maior
a definição da frequência, mas menor a definição da variação dos parciais com o tempo. E
vice-versa. Por exemplo, em uma janela FFT de 4096 com uma taxa de amostragem de 44100
Hz teremos uma ‘foto’ espectral que leva em conta 92.8 milissegundos de áudio. As
informações sobre alterações de parciais neste período serão perdidas. Se fizermos uma
ressíntese com essas informações, as alterações serão ignoradas. Assim podemos afirmar que,
de modo geral, em um som com muitas alterações em seus parciais (sons ruidosos ou pouco
constantes), o ideal é utilizar janelas FFT pequenas. Por outro lado, quando temos um som
contínuo e estável, podemos utilizar janelas FFT maiores.
1º Encontro Internacional de Pesquisa em Arte, Mídias e Tecnologia, UFMT, 23-25 de junho de 2021
Para exemplificar sugerimos a audição dos três áudios disponíveis no seguinte link:
https://bit.ly/3x68UjE. Note-se que no caso da amostra do som de pássaro, a análise padrão
do programa Spear (com resolução da frequência igual a 40Hz) descreve mal o som proposto
pois utiliza uma janela FFT de 16384 amostras. Produzindo uma foto espectral que pareceria
suficiente, a cada 550 samples (12 ms), o FFT leva em conta 372 ms de áudio. Entretanto o
som do pássaro contém muitas modificações espectrais que ficam indetectáveis. Por outro
lado, uma análise utilizando uma janela FFT menor (1024 com a resolução de frequência igual
a 345Hz), a descrição do áudio fica melhor. O tamanho da janela FFT foi o fator diferencial.
Outra característica relevante do FFT é decompor a amostra somente em ondas
senoidais harmônicas da frequência que resulta da divisão da taxa de amostragem pelo
tamanho da Janela FFT escolhida. Por exemplo, consideremos os harmônicos da fundamental
de 10.76 Hz em uma análise com janela de 4096 e taxa de amostragem de 44100 Hz. No áudio
analisado, quando há uma frequência que não é harmônica a essa ‘fundamental’ de 10.76 Hz,
esta frequência terá sua amplitude dividida entre as frequências harmônicas da fundamental
que sejam mais próximas. Suponhamos uma análise de FFT com essas características em um
sinal de áudio que seja uma simples onda senoidal de 435 Hz. O resultado da análise produzirá
picos nas amplitudes das frequências harmônicas próximas à frequência de 435 Hz. Neste caso
teremos picos nas frequências de 419.64, 430.4 e 441.16 Hz (elas são harmônicas de 10.76Hz).
Não havendo correção (que é possível, como veremos), uma ressíntese com esses dados do
FFT produziria um som com efeito de chorus (ou até clusters se com janelas FFT menores).
Em alguns softwares, há maneiras de se estimar a frequência exata. Uma das soluções
é aplicar a seguinte fórmula sugerida por Smith (2011):
 
   
Ela efetua o ajuste do espectro a uma curva parabólica, criada em sequência com a
amplitude de 3 bins
i
(index do resultado FFT). Este cálculo permite obter o pico exato da
parábola, que corresponde com mais precisão à frequência do áudio. Para isso é exigido que
o bin do meio (em um conjunto de 3 bins) tenha uma amplitude
ii
maior que seus dois vizinhos,
condição chamada de local maxima (KLINGBEIL, 2009, p. 33). A partir da local maxima, corrige-
1º Encontro Internacional de Pesquisa em Arte, Mídias e Tecnologia, UFMT, 23-25 de junho de 2021
se a frequência através da equação acima, onde a é a amplitude do bin à esquerda de local
maxima, b é a amplitude do bin de local maxima e c é a amplitude do bin a direita do local
xima. Após calcularmos a variável peak, somamos seu resultado com a posição de b no
resultado do FFT, seja b o 13º resultado do processo FFT, ou o 40º, e obtém-se assim uma
correção aproximada. Após esses cálculos, para se converter o resultado para a frequência em
Hertz, multiplicamos peak pela razão entre a Taxa de Amostragem e o Tamanho da Janela FFT.
  

A partir deste estudo conclui-se que os processos de FFT usados por todos os
programas disponíveis, como o Spear e o AudioSculpt, fazem estimativas aproximadas das
frequências espectrais que estão, portanto, sujeitas a imprecisões, principalmente quando
usamos parâmetros automatizados. Logo, composições nas quais o material musical é um
timbre a partir do qual se busca criar uma melodia/gesto através do caminho de análise de
um parcial, a variação dos parâmetros de janela FFT tem influência direta no resultado musical
da composição. Por isso, pode acontecer que estas escolhas modifiquem questões estéticas
de nossas obras sem que, por vezes, percebamos isso. Concordamos, portanto, com o
conceito de “orquestração eletroacústica” (THOMASI, 2016), principalmente ao modo
refletido por Ribeiro (2018) e Roads (2015) que aproximam os parâmetros envolvidos na
música eletroacústica da orquestração.
3. O processo de Fast Fourier Transform no OpenMusic
A seguir, descrevemos brevemente uma implementação no OpenMusic que busca
servir como ferramenta didática para testes e para a compreensão prática das características
apontadas acima. Apresentamos resultados parciais da implementação que está em processo.
Acreditamos que um dos benefícios de implementar FFT no OpenMusic é demonstrar
visualmente algumas questões, ao mesmo tempo em que ele nos permite analisar o código
por detrás dos objetos
iii
, ainda que ao preço de ter um processamento mais lento. Faz parte
de nosso objetivo comentar os códigos, para torná-lo acessível a artistas/estudantes que não
saibam programar, como é ilustrado pelo exemplo da Figura 1.
1º Encontro Internacional de Pesquisa em Arte, Mídias e Tecnologia, UFMT, 23-25 de junho de 2021
Além disso podemos ver como cada uma das funções de janela (window-functions),
utilizadas para melhorar a descrição STFT, modificam a onda sonora (vide Figura 2) e, ao
mesmo tempo, comparar como esses diferentes tipos trazem diferentes resultados na
decomposição senoidal (vide Tabela 1).
Figura 1 - Exemplo de código em OpenMusic que determina o Window Size
Figura 2 – Exemplo de deformação da onda sonora com window-functions para minimizar problemas do STFT
Som original
Resultado com filtro de -60dB
440 0.3 590 0.1
440 0.36 590 0.12
440 0.3 590 0.1
440 0.32 592 0.12
440 0.3 590 0.1
440 0.37 590 0.12 288 0.0017 244 0.0011
440 0.3 590 0.1
437 0.55 587 0.18 2337 0.0022 3228 0.0015
Tabela 1 – Comparação da diferença entre diferentes janelas utilizadas no processo de FFT.
1º Encontro Internacional de Pesquisa em Arte, Mídias e Tecnologia, UFMT, 23-25 de junho de 2021
A partir dessa breve demonstração, realizada com duas ondas senoidais (criadas no
Max/MSP), podemos levantar as seguintes questões: Qual é o nível de distorção de um
processamento em tempo real que utilize FFT em samples gravados ruidosos? O artista
percebe e tem consciência dessas distorções? Como avaliar tais impactos esteticamente?
Ele(a) compreende que a janela FFT pode afetar diretamente questões da prática musical?
A biblioteca, os processos e os help patches referentes a esta pesquisa podem ser
encontrados no endereço https://github.com/charlesneimog/OM-CKN/releases/. Optamos
por utilizar nela o software livre OM-Sharp que está disponível para todas as plataformas no
endereço https://github.com/cac-t-u-s/om-sharp/releases/.
4. Próximos passos deste projeto de Fast Fourier Transform no OpenMusic
Futuramente desenvolveremos formas de medir resultados aplicados a diferentes tipos
de janelas, procurando entender as características do processo de descrição de áudio em
diferentes formas de aplicação do STFT. Nos interessam questões como: Qual o impacto do
uso de diferentes window-functions na modelagem senoidal? Qual a diferença de processos
de descrição de áudio em softwares como o Spear (em tempo diferido) e softwares como o
Max/MSP e PureData (em tempo real)?
Após essa etapa, nosso intuito será investigar quais são os problemas composicionais
ao usar essas ferramentas sem um conhecimento técnico mínimo, buscando responder
questões como: help patches e externos (com seus códigos compilados) teriam a capacidade
de modificar e/ou propor estruturas de composição eletroacústica a artistas que não tem
conhecimento da lógica desses processos? Até que ponto isso pode ser entendido como um
processo de aculturação por quem constrói esses softwares? Em que medida podemos avaliar
esse possível impacto em nosso processo criativo sem nos tornarmos programadores?
i
Bin é a sequência de resultados de um processo FFT. Ele tem uma quantidade de dígitos igual ao tamanho da
janela FFT. Por exemplo, em uma janela FFT de 4096 teremos 4096 bins.
ii
O FFT gera uma lista de números complexos. Para obter a amplitude calcula-se:    onde
r é a parte real do número complexo e i é a parte imaginária. O resultado é a magnitude do bin.
iii
O código pode ser visualizado no OpenMusic com o comando Cmd/Ctrl + Shif + E no OM-Sharp e “E”.
1º Encontro Internacional de Pesquisa em Arte, Mídias e Tecnologia, UFMT, 23-25 de junho de 2021
Referências
CAESAR, Rodolfo. O enigma de lupe. Pequena Biblioteca de Ensaios. Rio de Janeiro: Zazie, 2016.
CAMPOS JÚNIOR, José Ignácio de. Interação Tímbrica na Música Eletroacústica Mista. 2005.
Dissertação (Mestrado em Música) – Instituto de Artes, UNICAMP, Campinas, 2005.
KLINGBEIL, Michael Kateley. Spectral Analysis, Editing, and Resynthesis: Methods and Applications.
Orientador: Tristan Murail. 2009. 157p. Tese (Doutorado em Música) – Graduate School of Arts and
Sciences, Columbia University. New York. 2009. Versão eletrônica.
LOY, Gareth. Musimathics: The Mathematical Foundations of Music, Vol II. Cambridge: MIT Press,
2007.
RIBEIRO, Felipe de Almeida. O impacto dos sintetizadores no processo composicional. Opus, v. 24, n.
1, p. 167-186, jan/abr. 2018.
ROADS, Curtis. Composing Electronic Music - A New Aesthetic. New York: Oxford University Press,
2015.
SMITH, Julius O. Spectral Audio Signal Processing. W3K Publishing: Stanford University. 2011.
THOMASI, Ricardo Oliveira. A função multidisciplinar do compositor eletroacústico: uma abordagem
operacional. Revista Vórtex, Curitiba, v. 4, n. 2, p. 1-9, 2016.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
As particularidades do material eletroacústico moveram a composição musical para outras dimensões operacionais. Dentre tantos, dois aspectos mostraram-se essenciais para o desenvolvimento da cena eletroacústica: modelos de representação especí­ficos e o contato direto do compositor com seu instrumental. Neste artigo, pretendemos criar um breve quadro de discussões pertinentes à postura do compositor eletroacústico contemporâneo frente às necessidades de integrar algoritmos e narratividade musical em um mesmo sistema composicional. Para tanto, sugerimos a abordagem operacional de Horacio Vaggione como um ponto de partida para eliminar a lacuna entre música e computação musical.
Article
Full-text available
O presente trabalho busca compreender a relação entre o compositor de música eletroacústica e o desenvolvimento dos instrumentos eletroacústicos, em especial a influência dos sintetizadores na música gerada. Adentramos especialmente na prática de patching, recurso que facilita o uso por omitir do músico conhecimentos avançados de eletrônica e programação em sintetizadores modulares de tensão controlada e softwares. A pesquisa tem como base os relatos de Robert Moog (apud KETTLEWELL, 2002), Donald Buchla e Miller Puckette (apud CHADABE, 1997), assim como os estudos de Peter Manning (2013) e Joel Chadabe (1997), e as obras de Karlheinz Stockhausen, Luigi Nono, Morton Subotnick e Philip Manoury. Tem como principal objetivo refletir sobre o papel do compositor de hoje e os desdobramentos poéticos na prática de música eletroacústica.
Dissertação (Mestrado em Música) -Instituto de Artes
  • José Campos Júnior
  • Ignácio De
CAMPOS JÚNIOR, José Ignácio de. Interação Tímbrica na Música Eletroacústica Mista. 2005. Dissertação (Mestrado em Música) -Instituto de Artes, UNICAMP, Campinas, 2005.
Orientador: Tristan Murail. 2009. 157p. Tese (Doutorado em Música) -Graduate School of Arts and Sciences
  • Michael Klingbeil
  • Kateley
KLINGBEIL, Michael Kateley. Spectral Analysis, Editing, and Resynthesis: Methods and Applications. Orientador: Tristan Murail. 2009. 157p. Tese (Doutorado em Música) -Graduate School of Arts and Sciences, Columbia University. New York. 2009. Versão eletrônica.