Signal Processing

    [Python 음성 데이터 분석] Librosa 라이브러리 사용법 총 정리

    본 포스팅은 과거 제 블로그에서 퍼온 글입니다. 지난 포스팅까지 파이썬을 활용하여 음성 데이터를 분석하는 전반적인 단계들에 대해 다뤘습니다. 중간중간 Librosa 패키지를 사용하는 방법에 대해서도 설명했습니다만, 아무래도 한 포스팅에서 모아서 요약해놓는 것이 좋을 것 같네요. 총정리라기보다는, 제가 주로 사용했던 메소드들을 정리해봤습니다. Librosa 라이브러리 Python에서 음원 데이터를 분석해주는 아주 고마운 라이브러리입니다. short time fourier transform이나 mel spectrogram, mfcc 등 흔히들 사용하는 기능들을 모두 제공하고 있습니다. 라이브러리 설치 pip install librosa import librosa 음원 데이터 불러오기 아래와 같이 간단하게 w..

    [Python 음성 데이터 분석] MFCC (Mel Frequency Cepstral Coefficient)

    지난 포스팅까지 소리의 특징부터 주파수 분석 및 Mel Scale까지 다양하게 살펴봤습니다. 이번 포스팅에서는 특히나 음성 분석에 많이 쓰이는 Mel Frequency Cepstral Coefficient에 대해 알아보겠습니다. 혹시나 잘못된 부분이 있으면 댓글 달아주시면 감사하겠습니다. MFCC (Mel Frequency Cepstral Coefficient) mel spectrogram을 DCT(Discrete Cosine Transform) 처리하면 얻게되는 coefficient를 말합니다. 쉽게 얘기하면, mel scale로 변환한 스펙트로그램을 더 적은 값들로 압축하는 과정이라고 볼 수 있습니다. 이미지를 압축하는 과정에서도 DCT를 사용하기도 합니다. DCT (Discrete Cosine Tr..

    [Python 음성 데이터 분석] Mel spectrogram 생성하기

    본 글은 과거 제 블로그에서 퍼온 글입니다. 지난 포스팅까지 Librosa 라이브러리의 short time fourier frequency에 대한 이론 및 방법에 대해 알아봤습니다. 이번에는 더 나아가, 음성데이터 분석에 주로 쓰이는 mel spectrogram에 대해 다뤄보겠습니다. 공부한 내용을 바탕으로 작성하기 때문에, 혹시나 잘못된 내용이 있으면 알려주시면 감사하겠습니다. Mel-Spectrogram 인간의 귀는 컴퓨터와 달리, 주파수 간 간격이나 소리의 크기 등을 정확하게 판단하지 못합니다. 저주파대역인지, 고주파대역인지에 따라 판단하는 기준?이 달라지기 때문입니다. 예를 들어 사람이 500Hz와 1000Hz 소리는 쉽게 구분할 수 있습니다만, 10000Hz와 10500Hz는 구분하기 어렵습니다..

    [Python 음성 데이터 분석] Librosa 이용한 주파수 분석

    이 글은 과거 제 블로그에서 그대로 퍼온 글입니다. 이번 포스팅에서는 지난 포스팅에 이어, 실제로 파이썬을 이용해 어떻게 음성 데이터를 불러오고 가공하는지에 대해 알아보겠습니다. Librosa 라이브러리 만든이 칭찬해~~ 파이썬은 배워두면 참 쓸모가 많은 언어인 것 같습니다. 찾아보면 라이브러리가 다 있으니까요. Librosa 라이브러리는 음성 데이터를 다루는 대표적인 라이브러리입니다. 간단하게 wav파일을 불러와서 파형을 직접 가공할 수도 있고, FFT나 MFCC 등 다양한 형태로 변환하는 기능들도 제공합니다. 상세히 살펴보겠습니다. 음원 데이터 불러오기 아래와 같이 wav 파일을 불러올 수 있습니다. 123import librosaaudio_path = 'waveFile.wav'y, sr = libr..

    [Python 음성 데이터 분석] 음성 데이터 형태 이해하기

    시작하기에 앞서... 본 포스팅은 과거에 운영하던 블로그에서 일부 수정하여 발췌해왔음을 서두에 밝힙니다. 이번에는 음성 데이터를 분석하는 방법에 대해 다뤄보겠습니다. 아직 공부중이긴 합니다만, 지금까지 진행한 내역들에 대해 초심자의 마음으로 서술하고자 합니다. 혹시 잘못된 내용이 있으면 댓글로 알려주시면 감사하겠습니다. 음성, 소리의 형태 우리가 듣는 소리는 진동의 형태라고도 볼 수 있습니다. 공기 중의 진동을 통해 파형이 전달되면서, 그 파형을 귀에서 인지해서 소리를 듣는 것입니다. 인간이 들을 수 있는 최소 압력단위인 20uPa 부터 그 위로 다양한 소리의 세기들이 결정됩니다. http://www.physicsclassroom.com/Class/sound 진동의 형태는 주파수와 밀접한 관련이 있습니다..