data的文件目录结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
data 
├── local
│   ├── dev
│   ├── test
│   └── train
├── test
│   ├── aishell_speaker_ver.lst
│   ├── conf
│   ├── enroll
│   ├── eval
│   ├── feats.scp
│   ├── frame_shift
│   ├── spk2utt
│   ├── split10
│   ├── text
│   ├── utt2dur
│   ├── utt2num_frames
│   ├── utt2spk
│   ├── vad.scp
│   └── wav.scp
└── train
    ├── conf
    ├── feats.scp
    ├── frame_shift
    ├── spk2utt
    ├── split10
    ├── split12
    ├── text
    ├── utt2dur
    ├── utt2num_frames
    ├── utt2spk
    ├── vad.scp
    └── wav.scp

所有的解压语料包产生的原始数据记录的链接信息都存放在data/local

所有信息被分成train和test两部分以后,链接信息被分别存放在data/traindata/test下,两部分下的目录结构基本一致(除了test部分做测试时产生的个别文件不同),常规的也不用赘述,只看一部分即可,以data/train为例。

1
2
3
4
5
6
7
8
9
10
11
12
13
└── train
    ├── conf		
    ├── feats.scp		#<utt> <raw_mfcc_addr>
    ├── frame_shift
    ├── spk2utt
    ├── split10			#存放10批次运算时的相关table关系,内部结构与./data/train类似
    ├── split12			#存放12批次运算时的相关table关系
    ├── text
    ├── utt2dur			#<utt> <during time>语句对应的时间
    ├── utt2num_frames	#<utt> <num of frames>语句对应的帧框数,和时间基本成正比
    ├── utt2spk			
    ├── vad.scp			#<utt> <vad_mfcc>
    └── wav.scp

exp的文件目录

1
2
3
4
5
6
7
8
|-- diag_ubm_1024			#files about diag_UBM
|-- extractor_1024			#files about ivector extractor
|-- full_ubm_1024			#files about full_UBM
|-- ivector_enroll_1024		#ivector files
|-- ivector_eval_1024
|-- ivector_train_1024		
|-- make_mfcc				#mfcc log files
-- trials_out				#the result of plda_score