data的文件目录结构
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
data
├── local
│ ├── dev
│ ├── test
│ └── train
├── test
│ ├── aishell_speaker_ver.lst
│ ├── conf
│ ├── enroll
│ ├── eval
│ ├── feats.scp
│ ├── frame_shift
│ ├── spk2utt
│ ├── split10
│ ├── text
│ ├── utt2dur
│ ├── utt2num_frames
│ ├── utt2spk
│ ├── vad.scp
│ └── wav.scp
└── train
├── conf
├── feats.scp
├── frame_shift
├── spk2utt
├── split10
├── split12
├── text
├── utt2dur
├── utt2num_frames
├── utt2spk
├── vad.scp
└── wav.scp
|
所有的解压语料包产生的原始数据记录的链接信息都存放在data/local
下
所有信息被分成train和test两部分以后,链接信息被分别存放在data/train
和data/test
下,两部分下的目录结构基本一致(除了test部分做测试时产生的个别文件不同),常规的也不用赘述,只看一部分即可,以data/train
为例。
1
2
3
4
5
6
7
8
9
10
11
12
13
|
└── train
├── conf
├── feats.scp #<utt> <raw_mfcc_addr>
├── frame_shift
├── spk2utt
├── split10 #存放10批次运算时的相关table关系,内部结构与./data/train类似
├── split12 #存放12批次运算时的相关table关系
├── text
├── utt2dur #<utt> <during time>语句对应的时间
├── utt2num_frames #<utt> <num of frames>语句对应的帧框数,和时间基本成正比
├── utt2spk
├── vad.scp #<utt> <vad_mfcc>
└── wav.scp
|
exp的文件目录
1
2
3
4
5
6
7
8
|
|-- diag_ubm_1024 #files about diag_UBM
|-- extractor_1024 #files about ivector extractor
|-- full_ubm_1024 #files about full_UBM
|-- ivector_enroll_1024 #ivector files
|-- ivector_eval_1024
|-- ivector_train_1024
|-- make_mfcc #mfcc log files
-- trials_out #the result of plda_score
|