음성분석기-프라트(PRAAT)

소리이야기 2011. 7. 17. 21:38

PRAAT

Short Tutorial

Pascal van Lieshout, Ph.D.

University of Toronto, Graduate Department of Speech-Language Pathology, Faculty of Medicine, Oral Dynamics Lab (ODL)

다재헌 역

A. Introduction

본 사용설명서는 PRAAT 프로그램을 소개하는 것이다. PRAAT는 네덜란드 암스테르담대학의 음성과학과의 Paul Boersma & David Weenink이 개발한 음성(Acoustic speech signals)분석용 freeware program이다. http://www.fon.hum.uva.nl/praat/ 에서 내려 받을 수 있다. 이 웹사이트에는 Sidney Wood가 쓴 초심자용 설명서도 들어 있다. PRAAT는 다른 OS에서 사용할 수 있지만 본 설명서는 Windows 2000 OS에 기초해서 설명한다.

PRAAT는 아주 유연한 speech 분석 도구이다. 본 설명서는 특별히 언어장애 분야에서 일하는 임상의학자 즉, 말과 목소리의 개선을 위해 PRAAT에 대해 더 배우기를 원하는 분들을 목표로 하고 있다. 다음 주제를 다룬다.

1. Finding information in the Manual; (매뉴얼에서 정보 탐색)

2. Create a speech object; (speech object(=file) 생성)

3. Process a signal (signal 조작)

4. Lavel a waveform; (파형에 명칭부여)

5. General analysis (waveform, intensity, sonogram, pitch, duration); Waveform(파형),

intensity(세기), sonogram(음향그래프), pitch(음정), duration(음의길이)과 같은 일반 분석

6. Spectrographic analysis; (스펙트럼 분석)

7. Intensity analysis; (세기 분석)

8. Pitch analysis; (음정분석)

9. Using Long Sound files; (장시간 녹음파일 활용법)

---------------------------------------------- 이상, 소개부는 간략번역 함

B. Working with PRAAT

1. Finding information in the Manual

PRAAT를 실행하면 다음 두 개의 창이 열린다.

왼쪽 창은 PRAAT objects 창이다. 왼쪽에 보통은 speech file의 목록이 있고, scratch나 file을 읽어 들일 때 만들어지기도 한다. 오른쪽 창은 PRAAT picture 창으로 그래프를 그리는 창이다. 이들 그래프는 다양한 formats으로 저장이 가능하며, Ctrl-P로 프린트도 가능하다.
PRAAT에 관한 정보와 작업과정에 대해 PRAAT objects 창의 main menu의 help를 클릭하면 볼 수 있다.

대부분의 옵션이 잘 정리되어 있으므로 스스로 찾아 볼 수 있다. 또, PRAAT의 고유 기능을 다루는 방법에 대한 정보도 쉽게 찾을 수 있도록 했다. 공식이나 작용원리, 기능을 더 알고자 할 때는 ‘Formulas tutorial'를 참조하면 된다. 공통의 의문이 생기면 ’Frequently Asked Questions'를 보고, 최근판에서 달라진 점을 알고자하면 ‘What's new?'를 클릭하라.
또, 매뉴얼에서 문장 찾기를 하려면 ‘Search Praat manual'을 클릭한 후 창이 뜨면 단어 사이를 띄어서 문장을 입력한다.

예를 들어 formant, pitch, intensity, spectrogram, printing 등을 찾아도 된다. 입력을 한 후 찾기를 하면 어떤 경우는 여러항이 제시되고 어떤 경우에는 매우 제한적인 항이 찾아질 것이다. 프로그램을 실행하는 어디에서든지 Help 기능을 활용하면 원하는 작업과정과 정보가 주어진다는 사실을 기억하고 활용하라.

2. Create a speech object

speech 샘플을 분석하기 전에 sound card 옵션을 조정하는 것은 매우 중요하다. ‘Volume control' 창을 열기 위해
1. 왼쪽 아래 코너의 작업표시줄의 ‘Start'로 간다.
2. ‘Program' ->'accessories' -> 'entertainment' ->select 'volume control'
3. 그러면 아래의 창이 떠오를 것이다.

4. ‘Option' -> 'Properties' -> select 'recording'
5. 그러면 여러 옵션을 보게 될 것이다.(예: Line-In & Microphone)
6. Microphone를 선택하면 다른 것은 선택되지 않는다. 원하는 스케일로 조정 가능하다.
7. ‘PAART objects window'의 메인 메뉴에서 'NEW'를 선택한다.
8. 그러면 다음 창이 열릴 것이다.

9.대부분의 경우, 단순 대화나 목소리를 녹음하게 되는데 이 때는 ‘Record mono sound'를 선택하고, stereo로 녹음하려면 ’Record stereo sound'를 택해야 한다.
10. 다음은 SoundRecorder 창이 나타날 것이다.(여기서는 모노 창 기준)

11. 먼저 sampling rate를 세팅한다. 대부분은 22kHz로 지정된다. 이 정도로도 충분하다. 만일 디스크용량이 부족하면 11kHz를 택한다. 만일 CD 음질을 원한다면 44kHz를 택한다. 이는 1초에 한 채널 당 44100 샘플을 저장한다는 의미이다.(16bit Sound card로는 약 176400 Bytes)
12.고품질 마이크를 연결한 후 ‘Record' 버튼을 클릭한다. 보통의 값싼 컴퓨터 마이크는 100Hz 이하의 음을 받아들이지 못하므로 꼭 마이크의 특성을 체크해야 한다.
13. 숨을 깊이 들이쉬고 다음 문장을 세 번 읽어라.<we stop doing the right thing>. 녹색막대로 보여 지는 입력레벨을 주시해라. 녹음이 끝나면 ‘Stop'을 클릭한다. 자 이제 신호가 RAM에 저장되었다. 그러나 아직 이용할 수 있는 단계는 아니다.
14. ‘Play'를 눌러 녹음 음을 들어본 후 만족스러우면 ’To list' box에 이름을 적는다. (스테레오의 경우에는 ‘left'와 ’right' 두 채널의 두 box가 주어진다.) 다음은 ‘To list' 버튼을 클릭한다. 그러면 ’Objects' 창에 이 파일이 놓이게 될 것이다.
15. ‘Objects window'로 가면 ’sound{name}' 파일이 있음을 볼 것이다. 네가 원한다면 언제든지 ‘rename'을 눌러 이름을 바꿀 수 있다.
16. 대화 음 파일을 만드는 하나의 예를 들었다. 그러나 여러 방법으로 디지털화된 데이터 파일을 만들 수 있다.
17. 끝으로, 디스크에서 파일을 읽는다.(‘PRAAT'은 다양한 포맷을 지원 한다’) 기본적으로 디스크에 선 녹음, 저장된 사운드 파일에서 분석을 위해 일부분을 선택한다. 디스크 용량이 충분하다면 몇 시간짜리 파일도 같은 방법으로 다룰 수 있다.

3. Processing a signal(optional)

1. 대화파일을 갖고 여러 작업을 할 수 있다. 신호를 filter 할 수 있고, 고유 진동영역을 확장할 수도 있다. 여기서는 필터링에 대해서만 설명한다. 고유주파수 영역에 집중한다면 보통 PRAAT에서는 필터링이 불필요하지만 다루기는 쉽다.
2. 첫째는 원 소리파일을 선택하는 것이다. (목록에서 파일이름을 클릭)
3. 신호를 필터하는 것은 다음과 같다.

* ‘Filter'를 선택 -> Filter(formula)
* filter 통과음의 저역과 고역값을 설정한다.(high pass 경계는 10Hz, low pass 경계는 5000Hz를 선택함) 그런 다음 ‘OK'를 클릭
* 그러면 새로운 파일({name}+_filt)을 생성한다.

4. 원 파일과 생성된 파일을 들어보라. 차이점이 듣기는가?

4. Label a waveform

1. 가끔은 speech waveform을 분할하고 각 부분에 이름표를 붙이는 것이 유용하다.
2. 원 파일을 클릭하여 선택한다.
3. ‘label & segment'로 간다. 다음은 ’To Text grid'를 선택한다. 그러면 다음 창이 나온다.

4. ‘Tier names'의 주어진 이름을 바꾸되 분할된 부분의 음절음으로 이름을 붙이면 된다.
5. ‘Tier names'는 간격이나 고유 불연속 시간점를 제공하는데 이용된다. ’Point tiers' box의 이름은 주어진 말(words)이 지속되는 동안 ‘Tier names'에 입력된 label이 자동적으로 점들에 할당된다. 여기서는 간격에만 초점을 맞출 것임으로 입력은 하지 않아도 된다.
6. speech 파일을 선택하고 Ctrl-key를 누른 상태에서 Text grid를 클릭한다.
7. 그러면 우측창에 새 메뉴가 나타날 것이다. ‘Edit'를 선택하면 다음 창이 뜰 것이다.

8. 화면을 최대로 한다. 맨 아래 'Play' 바를 누르면 speech 샘플 내용을 들을 수 있다. 위쪽 ‘Play'바는 커서의 위치에 따라 열로 나뉘어진다.
9. 자 이제 단어나 음절을 다음과 같은 방법으로 분할할 수 있게 되었다.

* 먼저 전 시그널 중에서 일부를 선택한다.(앞에서 3부분으로 나누어 녹음) 선택은 마우스의 왼쪽을 눌러 시작부를 택하고, 우측으로 드래그한 후 끝점에서 왼쪽 마우스를 놓는다. 선택부는 분홍색으로 표시된다. 그리고 ‘sel'을 클릭한다. 그러면 새로운 창이 만들어지면서 선택부가 확대된다. 커서 위치한 곳에서 어디를 클릭해도 화면에 나타난 시그널을 Play 시킬 수 있다. 이때 커서로 선택된 시간 축 위에 경계를 나타내는 빨간 수선이 나타나고 선 위에 빨간 글씨로 시간을 표시한다. 시간 단위는 초이다. 수직선은 위쪽 ’Play bar'를 분할하되 대략적인 위치를 클릭하면 각 부분별로 플레이된다.(TAB 키를 누르면 커서의 오른쪽이나 선택부분을 플레이한다.) 아래쪽 바는 전체 시그널(여기서는 3개 어절)을 플레이 시킨다. 지금 바로 확인해 보기 바란다. 원 시그널을 좀 더 세분해서 선택을 좀 더 세밀하게 할 수 있지만 지금의 확대 정도로 작업하자.
* 첫 번째 단어 “we" 시작점에 마우스 왼쪽 버튼을 이용해 커서를 위치시킨다. 위쪽 ‘play bar'를 이용해 선택부분을 확인할 수 있다. 다음은 첫 번째(’word')열로 가서 마우스 왼쪽 버튼으로 원형 커서를 클릭한다. 이렇게 하면 파란 수직선이 만들어지는데 이들 수선은 첫째 단어의 시작의 경계를 나타낸다.
* 다음 커서를 첫째 단어의 끝에 위치하고 위쪽 play-bar로 조심스럽게 소리를 들으면서 /e/가 끝나고 두 번째 단어의 /s/가 시작되는 위치를 찾아 클릭하면 다시 파란선이 나올 것이다. 이들 파란선 사이를 클릭하던지 TAB 버튼을 누르면 <we>란 단어를 들을 수 있다. 간격은 노랗게 변할 것이다. 이때 “we"라고 치면 노란영역에 씌어질 것이다.
* 이 과정(시작점+끝점)을 문장내의 모든 단어에 계속해서 적용한다. 파란선은 언제든 마우스 좌측 버튼을 누른 상태에서 옮길 수 있음을 주지하라.
* 단어 분할이 끝나면 대부분이 유사하게 보인다.

* 문장이 복합음절 단어를 포함하면 음절을 같은 방법으로 택하고 둘째열(‘syllable'), 셋째열(’sound') 등으로 반복할 수 있다.
* 이를 그림으로 구성할 수도 있다. 활성창을 바로 닫고, 선택된 두 파일 (sound+TextGrid)로 확인하자. ‘Object window'의 오른쪽 위 메뉴에서 ’draw'를 택한다. 그러면 아래쪽에 이름이 붙은 음향시그널의 ‘picture window'에 그림이 만들어진다. (이 경우는 오로지 중간문장에 대한 그림). 만일 라벨 붙은 것만 보고자한다면 시작과 끝점(초로 표현)을 명확히하고 일일이 라벨을 명기하거나 또는 원 시그널의 선택작업을 반복해야한다.(sound object를 선택 -> edit -> 마우스로 적절한 영역 선택 -> ’file'의 ‘extract selection'을 선택 <== 이는 선택한 사이즈의 새로운 sound object를 만드는 것이다. sound signal의 labeling은 앞의 과정을 반복한다.) 그래프를 그리기 전에 구성(plot)의 사이즈를 결정하고자 한다면 ’PRAAT picture'창(분홍 사각 모양)을 바꿈으로서 가능하다. 즉, ‘PRAAT picture' 창의 오른쪽 위쪽부분을 클릭하고 왼쪽 마우스 버튼을 누른 채 오른쪽 아래쪽으로 끌어 새로운 모양을 택할 수 있다. 이 그림은 post-script file로 저장될 수 있고, Ghostview나 Ctrl_P로 직접 프린트할 수 있다.
* speech signal에 label 붙이기나 분할을 하면서 동시적으로 간격을 추출할 수 있었다. 시그널과 Text grid가 선택된 상태에서 ‘Extract intervals'을 클릭하고 줄번호(여기서는 1=words, 2=syllables)와 “stop"과 같은 label text를 선택한다. 그러면 ”stop"으로 이름 붙여진 분할부분이 speech signal에서 추출되고, 새 object로 ’PRAAT object'창에 놓인다. ‘Extract all intervals..'를 택하면 모든 간격이 분리된 objects에 표시 될 것이다.(지금 연습). 이 경우에 빈 간격까지 추출될 것임을 주의해야 한다.
* 추출된 시그널을 선택할 수 있고, ‘object window'의 오른쪽에 있는 메인메뉴의 ’Edit'를 이용하여 보고 들을 수 있다.(지금 바로 실행해 보자)
* ‘Edit' 창에서도 마우스 좌클릭을 이용하는 선택이 가능하다. 만일 스크린 아래쪽 창이 안보이면 간단히 창을 최대로 확장하면 된다.

5. General analysis (waveform, intensity, spectrogram, pitch, duration)

1) PRAAT는 sound object로부터 정보를 추출하고, 가시화와 재생하는 ‘Edit' 등의 기능을 갖는 유연한 도구이다. 임상학자에게는 언어병리학 분야에서 speech acoustic 분석에 가장 좋다고 알려진 Kay CSL 소프트웨어와 경쟁할 수 있는 대단히 유용한 program일 것이다.
2) 먼저, /a/ 모음을 갖는 새 speech object를 만든다.
3) speech object를 선택하고, ‘object window'의 우측 main menu에서 ’Edit'를 택한다. 새창이 나타날 것이다. 만일 선택한 부분이 적절하지 못하면 다시 적절하게 영역을 정해 추출한 후 sound object 목록에 올린다. 그리고 ‘Edit' 창을 닫고, 추출된 sound object를 선택한 후 ’edit'를 다시 택한다.
4) Top menu에서 다음 선택사양을 볼 수 있을 것이다.

◈ File (file을 열거나 여러 가지 파일 선택법을 제공)
◈ Edit(signal을 복사 및 붙일 수 있게 함)
◈ Query (커서 위치 정보, 경계 선택, 작업 및 결과 등에 대해 알게 함)
◈ View (spectrogram, intensity 같은 창의 내용을 선택하고 확대 등을 조절함)
◈ Select (커서 위치를 조절 함)
◈ Spec. (spectrogram settings 조절 및 커서 놓인 위치의 주파수 등 정보추출)
◈ Pit. (목소리 시그널 settings 조절 및 Pitch 시그널(밝은 청색선), 커서위치의 값(어두운 청색글자) 등 정보추출)
◈ Int. (intensity 시그널 setting 조절 및 intensity 시그널(노란선), 커서 위치의 값(밝은 녹색글자) 등 정보추출)
◈ Form. (Formant settings 조절 및 formant(빨간 점선), ‘formant settings..' ’maximum duration' 옵션으로 formant 나타내는 창의 크기 조절)
◈ Puls (pitch 분석 필요시..pulse set 및 jitter 와 shimmer 같은 목소리 변수 정보추출; pulses는 맨 위 칸에 어두운 청색 수직선으로 표시된다.)

아래 그림은 /a/ 음을 초기설정치로 보여주는 창이다.

5) 시그널의 작은 부분을 확대(‘sel')하면 좀 더 세밀하게 볼 수 있다. ’Out'은 확대를 취소하는 것이며 ‘all'은 원래의 전체 를 보여준다.
6) 보여지는 시그널의 어떤 부분을 클릭할지라도 커서 위치의 시간을 보여줄 것이지만 또한 local pitch, intensity, formant, jitter/shimmer 값 등에 대한 정보를 추출해 준다. 예를 들어 안정된 모음의 중간에 커서를 위치시키고 다음과 같이 하라.

a) 'Pit' 가서 ‘Get pitch'를 선택(F10)한다. 그러면 local pitch 값이 분리된 창에 보여준다.'Int.'로 가서 ‘Get intensity'를 선택(F11)하면 local intensity 값이 주어진다.
b) 'Form.'으로 가서 ‘Get first formant’(F1) 선택하면 local first formant 값이 분리된 창에 보여준다. second formant(F2), third formant(F3), fourth formant(F4) 도 같은 방법으로 보여준다. ‘formant report'를 택하면 전체 포만트를 모두 보여준다. 만일 커서로 한점을 간단히 선택하지 않고 일부분을 선택하면 영역속의 포만트를 모두 일시적으로 보여준다. 보여주는 수는 시간 steps 수에 의존한다.(’Form' -> Formant settings.. -> time steps).
c) F5 - F8은 커서 위치나 선택영역의 추출된 정보를 저장하는 키이다. ‘Query' 메뉴를 보라.
d) ‘Query'의 log setting을 이용해서 모든 값을 한 개 file에 저장할 수 있다. 어쨌든 이 선택사양은 PRAAT 전반에 광범위하게 적용될지라도 앞으로 더 논의하지는 않을 것이다. ('log'를 찾아보라)
[지금 시그널의 서로 다른 위치에 이들 options을 적용 및 비교해 보라]
e) 시그널 각 각에 대한 settings 즉, spectrogram, formant, pitch, intensity 등에 대한 settings은 앞에서 제시된 각 각의 메뉴옵션에서 바꿀 수 있다. 일반적으로 초기설정치를 변경해야할 특별한 이유가 없다면 그냥 사용하기 바란다. 어쨌든 좁은 폭의 즉, 분해능이 좋은 spectrogram을 이 필요한 경우처럼 조건을 바꾸기를 원한다면 어디서든 바꿀 수 있다. 예를 들어, 좁은 폭 스펙트로그램은 다음과 같이 구할 수 있다.

◈ ‘Spec.'메뉴에서 ’Spectrogram settings' 옵션을 선택한다.
◈ 창에 보여주는 모양을 ‘Gaussian'으로 택한다.
◈ 넓은 폭 세팅을 위해 창 길이를 0.0043으로 바꾼다.
◈ 좁은 폭 세팅을 위해 창 길이를 0.029로 바꾼다.
◈ 앞의 두 경우를 모두 시도해 보고 결과를 살펴보아라.(지금 바로). 또, 표준 초기설정 결과와도 비교해 보라.
◈ 이들 옵션에 대해 더 많은 정보는 “Sound: To Spectrogram."에 있다.

7) 위 정보에 더해서, ‘Edit' 창에서도, 예를 들어 /pεt/ 같은 단어의 목소리 시작 시간 (Voice Onset Time=VOT)과 같은 순간적인 정확한 측정을 할 수 있다. 다음과 같은 방법으로 측정 가능하다.

● 단어 /pεt/ 를 세 번 반복한 speech object(file)을 만든다.
● speech object를 선택하고, 주 메뉴에서 ‘Edit'를 택한다.
● 목표 단어의 확대가 필요하다면 마우스로 클릭하고 ‘sel' 옵션으로 확대한다.
● 단어 /pεt/의 /p/의 시작점과 모음의 시작부 사이를 확대한 후, /p/의 끝과 모음의 시작점 사이의 간격을 택한다. 이 간격이 VOT interval이다.(지금 바로 확인)
● 간격의 지속시간(단위:초)이 위에서 선택된 부분의 간격이다. 괄호안의 값 차이
(VOT interval)는 Hz로 전환할 수 있는데 여기서는 의미없는 분석이 된다.

정확한 측정을 위해서는 선택영역의 왼쪽과 오른쪽의 정확한 위치를 클릭해야함을 주지해야 한다. 괜찮다면, ‘Select' 메뉴로 가서 선택영역의 시작과 끝을 정확히 맞춘다. 이렇게 하면 원 선택영역에 근사한 표준 시작점과 끝점을 찾을 수 있다.

6. Voice analysis

목소리 환자를 돌보는 임상의학자들에게 특히 흥미로운 옵션은 ‘Puls.' 메뉴에서 찾을 수 있다. 이 메뉴에는 음이 지속되는 동안의 변화량(불안정도, 고르지 못한 정도)을 계량화하는 (jitter)와 파형에서 어두운 청색선(’puls' line)으로 구별되는 각 싸이클의 진폭을 나타내는 (shimmer)와 같은 여러 가지 측정이 들어있다. 어쨌든 억양(발성)을 연구하는데 최적화된 pitch 분석(Pitch setting은 Sound Edit창의 ‘Pit.' 메뉴에 있음)을 위해 초기설정(default)되어 있음은 주지의 사실이다. Parrt 4.1버전은 ’silence threshold' 와 ‘octave jump cost'에 대한 초기 설정치를 바꿀 수 없게 하는 대신 Pitch에 적합화 시켰다. Pitch 분석에서 초기설정 영역은 75~600Hz 이지만 특별한 남자 목소리의 경우는 낮은 값(예를 들어, 50Hz)까지도 포함시켜야 한다. 음성분석 옵션 사용을 명확히 하려면 다음 과정을 따라서 해라.

● 연속적인 /a/ 모음을 녹음해라(6초나 그 이상 길게)
● 녹음된 녹음 파일을 선택하고 주 메뉴에서 ‘Edit.'를 택해라.
● Sound Edit.에서 안정된 중간 부분(+4초)을 선택하고 이 부분을 추출한다 (File -> Extract selection).
● 원래 창을 닫고 Praat object에서 추출된 sound object을 택한 후 메인 창에서 다시 ‘Edit.'를 택한다.
● 5절의 그림과 유사하다는 것을 알 수 있을 것이다. 그렇지 않다면 pitch, energy, formant, 가장 중요한 puls 표시가 제대로 활성화되었음을 확인해야 한다.
● 계속하기 전에 먼저 앞에서 상술한 대로 Pitch 분석 settings을 해야 한다.
● 우선, ‘Pit.' 메뉴로 가서 ’extract the visible pitch contour' 옵션을 선택한다. 그러면 주 파일 목록에 Pitch object가 만들어 진다. 목록에서 이 object를 선택하라.(이름을 주기 전에는 ‘Pitch untitled'로 이름표가 붙는다)
● PRAAT object 창 아래의 주 메뉴에서 ‘info' 버튼을 클릭하면 특정 모음의 평균값과 변화량 등에 대한 여러 정보가 담긴 분리된 창이 열린다. (가장 중요한 것들은 빨간 화살표로 표시했다)

● 중앙값, 10-90% 중앙 확산값, 영역, 평균치와 측정 표준편차는 통계적으로 분포 central moments에 대한 정보를 제공한다.(필요하면 통계에 관한 책을 참조) 각 수치는 Hz, Mel, Semitone, ERB와 같이 각기 다른 단위로 주어진다. 일반 사용자를 위해 Hz를 사용하겠지만 다른 단위에 관심이 있는 사람은 다음에 주어지는 웹에 잘 소개되어 있으므로 참조 바람. [이하는 의미없어 생략]

(http://www.ling.su.se/staff/hartmut/bark.htm.)

● Sound 편집창으로 되돌아가면 ‘Puls.' 메뉴에서 음성품질에 대한 다른 측정이 있음을 알게 될 것이다. 그것은 다름 아닌 주파수섭동을 나타내는 몇 몇 jitter와 진폭섭동을 나타내는 shimmer 측정들이다. 유용한 목소리에 대한 유용한 분석들은 ‘Edit'창의 ’pulse' 메뉴에 있는 ‘voice report'에 의해 모아진다. 다음 그림에 이런 예를 주었다.

● 다양한 파라메터의 상세한 기술과 방법은 PRAAT 메인 매뉴얼의 ‘Voice' 섹션에서 찾을 수 있고 계산된다. 특정의 jitter와 shimmer 측정에 대해 다음에 주어지는 목록은 Baken, R.J.,와 Orlikoff, R.F.의 저서(2000, Clinical Measurement of Speech and Voice(말과 목소리의 임상측정), San Diego, Singular Publishing Group, Inc.)에서 인용하였다. 이 책에는 유사 혹은 같은 측정을 기술하고 있다.

a) Jitter(local) => p. 201-202의 jitter ratio 를 참조(1000을 곱하지 않은 경우)
b) Jitter(local, absolute) => 평균주기시간으로 나누지 않은 jitter ratio
c) Jitter(rap) => P.203-205와 p. 208의 표6-34에 주어진 ‘relative average perturbation'(상대 평균 섭동)을 참조
d) Jitter(ppq5) => jitter(rap)과 유사하되 5개 지점 측정(3개 지점에 대비 됨)
e) Jitter(d에) => 원래의 PRAAT 지터 측정으로써 jitter(rap)의 3배와 똑같다.
f) Shimmer(local) => p. 133을 참조하되 이는 dB 표현 판은 아니다.
g) Shimmer(local, dB) => p.133-134와 표5-22를 참조
h) Shimmer(apq3) => p.133-135(APQ)와 표 5-23을 참조하되 Praat에 생성된 값과 직접 비교할 수 없다는 점을 주의하면서 읽어라.
I) Shimmer(apq5) => shimmer(apq3)를 참조; 5개점 창 크기를 선호하는 사람도 있다.(B&O의 p.135참조)
j) Shimmer(apq11) => shimmer3를 참조. 이것이 Takahashi & Koike 가 원래 APQ 측정으로 제안했던 옵션이다.(B&O p.134참조)
k) Shimmer(ddp) => 원래 Praat shimmer 측정임; shimmer(apq3)의 3배와 같다.

위의 모든 측정은 주파수와 진폭의 섭동에 대해 뭔가를 말해준다. B&O 책의 표6-37에 서로 다른 jitter 측정치를 비교하고 있다.(Praat에서 사용하지 않는 측정도 포함)

1) ‘Pulses' 메뉴에도 PRAAT에서 사용하는 많은 jitter와 shimmer 목록이 있다. 이들 측정에 대한 상세한 기술은 main manual(B&O ?)의 ’Voice' 절에 있다.(여기서 이들 측정이 Kay사의 Multi-dimensional voice program(MVDF) 변수와 비교하고 있다) 이들 측정에 대한 다른 정보는 위에 기록된 B&O(2000) 교재를 참조하라.
2) 9.1절에서 Voice quality(음성품질)에 대한 다른 측정(H/R ratio)을 논할 것이다.

7. Spectrographic analysis(optional)

PRAAT 일반사용자 대부분에게는 충분하리라고 여겨지는 ‘Edit' 메뉴의 이용 가능한 옵션에 더하여 PRAAT에서는 특정의 스펙트럼 화면 구성이 가능하다. 이 장에서는 이들 옵션을 알아본다.

1. 분석창(analysis window)을 닫고 모음/a/의 speech object를 다시 선택한다.
2. object window 오른쪽에 있는 주 메뉴에서 ‘Spectrum-'을 택한다.
3. ‘Spectrum-' 메뉴에서 ’To Spectrogram.'을 택하면 아래 창이 열릴 것이다.

4. 좀 더 전문적인 사용자에게 필요한 ‘Time step(s)'이나 Frequency step(Hz)' 변수를 두려워하지 말고 초기설정치를 유지하라. 또 한, 창 모양 ’Gaussian'도 그대로 두어라. 어쨌든 speech object의 Nyquist-frequency이나 좀 더 낮은 값으로 ‘Maximum frequency(Hz)' 변수를 바꾸어라.(sampling 주파수가 10kHz라면 NF=5000Hz). 또, 5-11에서 설명한 바와 같이 분석을 위한 bandwidth를 결정하기 위하여’Analysis width(s)' 변수를 바꿀 수 있다. 바로 반복해서 우선, 다음 값을 대략 적용해 보자:

● Wide-band=300Hz = 0.0043 s
● Narrow-band=45Hz = 0.029 s
● 적용 공식은 1.2982804/analysis width
● 초기설정치는 0.005 s(이는 대략 260Hz bandwidth)
● 세 개 세팅을 시도하고 그 스펙트로그램 결과를 보라.(spectrogram 시그널을 선택 하고 주 메뉴에서 ‘View'를 택한다).(지금 바로 시도)
● 특정 formant 값을 구하기 위해시간 상의 특정점을 결정해야 한다. spectrogram view를 닫고 오른쪽 메뉴에서 ‘To Spectrum(slice)..'를 택한다. 선택된 시간(초)을 명기하고 OK를 클릭한다. 그러면 새로운 object가 object 목록 ‘Spectrum_{name}'에 나타난다. 이 object를 선택하고 오른쪽 메뉴의 ’Edit' 옵션 을 택한다. 그러면 다음 창과 유사한 창이 나타난다.

● 스펙트럼 상에서 커서를 원하는 위치로 이동시킬 수 있고 대응하는 formant의 값을 읽어 위에 나타낸다.(커서의 수평값은 특정 주파수의 power값을 dB로 보여준다. 이 옵션이 녹음조정에 가장 민감하다). 이 결과를 Edit window(7c 참조)의 formant와 비교하면 /a/음의 F1과 F2의 스펙트럼 구별이 잘 안된다는 것을 알 수 있다. 그래서 감각적으로 이 스펙트럼은 ‘Edit' 창의 formant tracing 보다 덜 정확하다고 할 수 있다.

5. Formant 값과 bandwidths 값을 좀 더 정확하게 구하는 다른 방법이 있다.

● spectrum 창을 닫아라.
● 앞에서 만든 원본 /a/ sound object를 선택해라.
● 주 메뉴에서 ‘Formants & LPC'를 선택하라.
● ‘To Formant (burg)..'을 선택하라.
● 다음 창이 떠오를 것이다.

● ‘Window length(s)'옵션은 ’To Spectrogram.' 메뉴에 있는 ‘Analysis width'옵션과 비슷하다.(6.4참조). ’Maximum formant(Hz)..' 세팅값을 ‘Edit' spectrogram settings(남성의 경우 5000Hz)에서 적용한 값과 같은 값으로 변경하라.
● ‘Formant_{name}'을 선택하고 ’object window' 아래 있는 ‘Inspect'를 택하라.
● 두 개의 분리된 창에서 ‘open'을 두 번 클릭하면 다음 메뉴가 나타난다. (F5는 안 보인다)

● 이들 값은 ‘Edit'창에서 보여주는 formant 값과 유사해야 한다.
● ‘Picture window'에서 spectrogram을 구성할(나타낼) 수 있고, 더욱이 위쪽에 formant tracks을 구성할 수도 있다. 다음과 같이 하라:

- ‘Edit' 창에서 spectrogram 을 추출하라.(sound object 선택 -> ’Edit' ->'Spec.' -> 'Extract visible spectrogram')
- spectrogram object를 선택하라(4.9에서 기술한 것처럼 먼저 ‘Picture window'에서 그림영역을 선택한다.
- 메뉴로부터 ‘Paint..'를 택하고 Nyquist frequency에 대한 ’To frequency' 옵션을 세트한다.그리고 ‘OK'를 클릭한다.
- 다음은 ‘Praat picture' 창의 주 메뉴에 있는 ‘Pen'옵션으로 가보자. 서로 다른 펜칼라를 택할 수 있다.
- 그런 다음, 같은 시그널로부터 formant object를 선택(‘Picture window'에서 클릭하는게 아님을 주의)하고 메뉴의 ’Draw-'를 택한다.
- Options 창에서 ‘Speckle..'을 선택한다.(’Maximum frequency'를 5000Hz로 놓았는지 체크하라). Formant가 빨간(색깔은 선택하기 나름)점선으로 ‘Picture window'의 spectrogram 위에 겹쳐서 주어진다.

● 추가정보: ‘Formant_{name}' object 와 ’To LPC.'(Linear Predictive Coding)를 택하면 ‘LPC_{name}'이란 새로운 object를 만들어낸다. 원 sound object와 LPC object를 함께 선택하면 메뉴에 ’Filter(inverse;逆)‘ 옵션이 생긴다. 이 옵션을 택하면, formant 구조는 애매한 speech object의 source 시그널을 만드는데 이용된다. 간단하게는 이렇게 만들어진 sound object를 선택하여 ‘Edit'로 볼 수 있다.(좀 이상하게 보이는 spectrogram에 대해 염려하지 마라). 그 소리를 들어보면 좀 지지[zz] 거리는데 이 소리가 vocal tract에서 보정되지 않은 실제 목청에 유사한 것이다.(지금 바로 실습하라).

8. Intensity analysis(optional)

1. 'Edit' 창 밖에서 Spectrographic Techniques를 다루는 것과 유사하게 intensity 분석도 다룰 수 있다. 하지만 “Edit' 옵션을 활용하는 것이 가장 쉬운 길이다. 따라서 아래에서 설명하는 실행과정은 원한다면 ‘Edit' 옵션을 적용해도 된다.
2. 모음 /a/의 원 speech object를 선택하라.
3. 주 메뉴에서 ‘To Intensity..'를 택하라.
4. 최소 pitch가 100Hz 이하인 경우를 제외하고는, 선택된 창의 초기설정치를 바꾸지 말고 ‘OK'를 클릭해라.
5. speech object를 다시 선택하고, 주 메뉴에서 ‘Edit'를 택하라.
6. Intensity의 평균치나 표준편차를 알고자하는 구간의 시작점과 끝점을 결정해야 한다. 그런 다음, 창을 닫아라.
7. Intensity object('Intensity_{name}')를 택하라.
8. 메뉴에서 ‘Query-' 옵션을 택하라.
9. ‘Get mean.' 옵션을 택하고 앞(7.5 참조)에서와 같이 구간을 정하라.(지금 바로 시도)
10. 평균치가 분리된 (‘Info')창에 나타날 것이다. 카피나 쓰기 등을 통해서 이 정보를 저장할 수 있다.
11. ‘Get standard deviation.' 즉, 표준편차도 같은 방법으로 구할 수 있다.(지금 시도)
12. Speech object를 선택하고, 주 메뉴에서 ‘Query'를 택하면 다음 그림에서 보여주는 것처럼 에너지레벨 계산과 같은 많은 옵션이 주어진다. 어쨌든 이들 옵션을 논의하는 것은 이 사용설명서의 범위를 넘어서는 것이다.

9 Pitch analysis

앞(5.9 참조)에서 설명한 바와 같이, ‘Edit' 창은 ’Puls.' 메뉴 아래에서 많은 jitter와 shimmer 측정을 가능하게 한다. 하여튼, PRAAT에는 또 다른 음성품질(voice quality) 측정법이 제공된다.

1. 모음 /a/의 sound object를 선택한다.

● 주 메뉴의 ‘Periodicity-'로 가라.
● 메뉴에서 ‘To Harmonicity(cc)'를 선택하고 초기설정치를 유지하라.(바꾸어야 할 충분한 이유가 있는 경우를 제외하고 주어진 값을 그대로 두라는 의미)
● ‘Harmonicity_{name}' object를 선택하고, 메뉴에서 ’Query-'를 택하라.
● 메뉴에서 ‘Get mean..'을 택하면 평균 H/N(Harmonic/Noise ratio) 값이 ’Info.' 창에 기록된다. 만일, ‘Get standard deviation.'을 택하면 대응하는 표준편차값을 구할 수 있다. 이들 측정의 의미는 B&O(2000)가 지은 교재 p.281-282에 상세히 설명되어 있다. ’Harmonicity'에 대한 PRAAT 설명서만 찾아보아도 이들 측정 항목의 의미, /a/와 /i/ 모음의 잠정적인 표준값에 대한 몇 몇 의미를 알 수 있게 될 것이다.

2. 모음 /a/의 sound object를 다시 선택한다.

● 주 메뉴의 ‘Periodicity-'로 가라.
● 메뉴에서 ‘To Pitch(cc)'를 선택하고 특별한 이유가 있지 않다면 초기 설정값을 그대로 유지하라.
● ‘Pitch_{name}' object를 선택하고 시그널을 보여주고, 분석을 위한 적절한 구간을 선택하기 위해 ’Edit'를 선택한다.
● 'Pitch' object를 선택하고 메뉴의 ‘Query-'를 택한다.
● 메뉴에서 ‘Get mean.'을 선택하면 특정 선택 구간에 대한 평균 기본주파수를 ’Info window'에 나타낸다. ‘Get standard deviation..'에 대해서도 동일하다. 발성(단일 모음 발성음)과 대화(보통 대화나 소리 내서 읽는 음의 일부분 즉, 다양한 연설 등의 부분음)의 기본주파수 사이의 차이에 대한 기술(記述)은 B&O(2000)의 교재에서 인용 데이터와 함께 찾아 볼 수 있다. 보통 좀 더 강력한 indicator는 ’Query' 메뉴에 있는 ‘Get Quantile'(중앙값 0.5로 quantile(分位) 세팅)을 이용하는 것이 될 것이다.
● ‘Query' 옵션도 octave jump에 상관없이 모든 object에 대한 평균 절대 slope(단위 Hz, Semitones, Mel 등은 임의 선택)에 관련한 정보를 제공한다. 단순히 ’Get mean absolute slope.' 나 ‘Get without octave jump.'를 선택하기만 하면 된다.(지금 바로 시도)

10. Long sound files

1. PC 메모리 용량에 맞추어 sampling rate를 선택해야 메뉴 ‘New'에 들어 있는 ‘Record Sound' 옵션을 통해 다양한 녹음을 할 수 있다. ’Control' 메뉴에서 ‘Preferences' -> 'Sound input prefs'를 택함으로써 PRAAT에서 사용하는 표준 buffer 크기를 변경할 수 있다. 분명히 컴퓨터 메모리 용량에 RAM도 맞추어야 한다.
2. 만일 긴 speech objects를 녹음 하려면, 다음과 같이 한다.

● Windows 화면 왼쪽 아래에 있는 작업 'Start'로 가서 ‘Program' ->'Accessories' -> 'Entertainment' -> 'Sound Recorder' 를 차례로 클릭한다.
● 그러면 다음의 창이 떠오른다.

● 먼저 녹음의 품질을 첵크해야 한다. 주 메뉴에서 ‘File'을 선택하고 ’Properties'를 택한다. 그러면 PC의 sound 카드에 의존하는 다음의 창이 열린다.

● ‘Convert Now'를 클릭해서 원하는 포맷의 녹음 상태로 세팅할 수 있다. (CD-음질을 얻기 위해 보통 16 bit stereo, 44kHz sampling rate로 세팅)
● 빨간색 버튼을 클릭함으로써 녹음이 시작된다.(입력 장치는 volume control 창에서 선택한다.) 창에 녹음 시간이 표시될 것이다.
● 녹음이 끝나고 체크한 후에 ‘File'로 가서 ’save'를 택한다. 그러면 sound object가 표준 창에 *.wav file로 저장된다.
● Long Sound file을 저장했으면 PRAAT의 ‘Object' 창으로 간다. 다음은 주 메뉴의 ’Read' 옵션에서 ‘Open long sound file..'을 택한다. 그리고 파일을 선택해서 저장한다.
● 지금까지 작업으로 목록에 ‘Long sound' object가 만들어진다.
● File을 가지고 작업을 하기위해 ‘Long sound' object를 선택한 후 ’view'를 택한다.

‘view' 창에서 특정 구간을 택할 수 있다. 메뉴 ’File'에서 ‘Extract selection'을 이용해서 구간을 추출하면 long sound object의 추출된 부분의 sound object 목록이 추가된다. view 창에는 원본 녹음이 stereo인 경우를 제외하고 똑같은 2개 녹음 복사본이 있다. 선택된 sound object는 PRAAT에서 다른 sound object 처럼 다룰 수 있다.

C. Finally

본 사용설명서는 오로지 PRAAT 기능을 소개하는 것이다. 여러분은 manual과 다른 설명서 즉, PRAAT 홈페이지에 있는 Sidney Wood의 초심자용 사용설명서 등을 활용해서 program의 광범위한 사용에 의한 가능성을 배우고 익혀야 한다. 본 사용설명서에서 소개한 기능에 좀 더 익숙해지기 위해 다음 과제를 계속하라.

a. 다음 단어를 녹음하고 VOT와 모음의 시간길이를 구하라: “pet","ket","tet" 와 ”dead". 당신이 알아낸 차이점은 무엇인가?

b. 다음 모음을 녹음하고 formant patterns(F1, F2, & F3)을 측정하라: /i,æ,a,o,u/. pattern에 대하여 무엇을 말할 수 있는가?

c. 장모음 /a/와 /i/를 녹음하고 duration, jitter, H/N ratio 및 이들의 표준편차를 구하라.

d. 다음 문장을 두 번 녹음하되 한 번은 선언식으로 읽어 녹음하고, 다른 하나는 질문형태로 읽어 녹음하라. (다른 문장으로 녹음해도 된다)

“The Canadian and Dutch players met on the ice"

e. 두 문장의 평균 intensity level과 표준편차, 평균 기본 주파수와 표준편차, 평균 절대 pitch slope를 측정하라. 차이점에 대하여 무엇을 말할 수 있나?

Watching is useful, but in the end it is the practice that counts!!

저작자표시 비영리 변경금지

'소리이야기' 카테고리의 다른 글

국악 음계이론 (0)	2011.11.22
서양 음계이론 (0)	2011.11.11
목소리(VOICE)의 발성 원리 (2)	2011.04.05
노인성 난청(PRESBYCUSIS) (0)	2011.03.30
귀의 구조와 청각 (2)	2010.12.28

Posted by 다재헌

SEG - Sound Expert Group

음성분석기-프라트(PRAAT)

'소리이야기' 카테고리의 다른 글

카테고리

달력

티스토리툴바


	보이지 않는 소리를 보여주고, 들리지 않는 소리를 들려주는 場 by 다재헌