June 9 –13 2014

Corpus Pinyin Distribution Analysis — Phonetic (Pinyin Syllable)

There were about 300 beginner learners of Mandarin Chinese asked to read 300 Pinyin prompts which includes 200 words (each word is at least two characters) and 100 sentences. Each speaker received a different set of utterances. Due to the limitation of familiarity to the language, the corpus should consist of the utterances which highly likely to appear in the daily conversation. In order to prove this hypothesis, the analysis of corpus Pinyin distribution has been carried. The following figure shows the result of the distribution of all possible Pinyin syllables in the corpus.

Pinyin Frequency (Corpus) % of Corpus Frequency (Resources) % of Resources Difference
de 12327 2.58 8722289 4.53 1.95
shi 13546 2.84 7050291 3.66 0.82
zhi 5275 1.10 3185308 1.65 0.55
xiao 4501 0.94 868443 0.45 0.49
zhe 4327 0.91 2602857 1.35 0.44
wei 3341 0.70 2092014 1.09 0.39
zhong 3623 0.76 2141356 1.11 0.35
zai 4088 0.86 2252027 1.17 0.31
zi 5402 1.13 1589345 0.83 0.31
ji 6021 1.26 2977951 1.55 0.28
ma 2266 0.47 388106 0.20 0.27
jia 3900 0.82 1051033 0.55 0.27
yi 13264 2.78 5869055 3.05 0.27
hua 3263 0.68 807991 0.42 0.26
shuo 940 0.20 884288 0.46 0.26
he 2835 0.59 1635213 0.85 0.26
tian 2425 0.51 489761 0.25 0.25
di 3071 0.64 1724350 0.90 0.25
ba 2853 0.60 679337 0.35 0.24
shu 3315 0.69 867809 0.45 0.24
yv 3146 0.66 1713834 0.89 0.23
mei 3331 0.70 933373 0.48 0.21
shang 4197 0.88 1292610 0.67 0.21
qv 3184 0.67 884073 0.46 0.21
suo 589 0.12 604505 0.31 0.19
chi 1626 0.34 312261 0.16 0.18
zhang 1693 0.35 341340 0.18 0.18
lao 1550 0.32 299072 0.16 0.17
er 2551 0.53 1353892 0.70 0.17
dui 1360 0.28 870671 0.45 0.17
da 4423 0.93 1469164 0.76 0.16
wan 1900 0.40 452252 0.23 0.16
wo 3566 0.75 1749745 0.91 0.16
shen 1729 0.36 1006355 0.52 0.16
lai 3498 0.73 1118779 0.58 0.15
nv 725 0.15 2979 0.00 0.15
si 1927 0.40 1055744 0.55 0.14
dao 3763 0.79 1788900 0.93 0.14
che 1082 0.23 166297 0.09 0.14
yvan 3198 0.67 1024450 0.53 0.14
fa 2048 0.43 1088739 0.57 0.14
bai 1514 0.32 349026 0.18 0.14
hen 1406 0.29 321875 0.17 0.13
ru 1060 0.22 669787 0.35 0.13
fei 1658 0.35 427791 0.22 0.13
ban 1661 0.35 429225 0.22 0.13
xing 2777 0.58 1359245 0.71 0.12
xin 2854 0.60 918778 0.48 0.12
shui 1253 0.26 277968 0.14 0.12
men 4011 0.84 1391330 0.72 0.12
luan 133 0.03 276875 0.14 0.12
kan 1711 0.36 469240 0.24 0.11
zuo 2758 0.58 893830 0.46 0.11
mai 873 0.18 137363 0.07 0.11
xi 3203 0.67 1082565 0.56 0.11
lve 177 0.04 281150 0.15 0.11
xve 1936 0.41 572292 0.30 0.11
ci 1118 0.23 657819 0.34 0.11
jiao 2239 0.47 703885 0.37 0.10
hai 2420 0.51 779180 0.40 0.10
qiu 1080 0.23 244599 0.13 0.10
xian 2427 0.51 1167460 0.61 0.10
liang 2043 0.43 639396 0.33 0.10
feng 1173 0.25 289836 0.15 0.10
xv 961 0.20 570666 0.30 0.09
huan 1017 0.21 232948 0.12 0.09
qin 932 0.20 199822 0.10 0.09
ye 2641 0.55 1240777 0.64 0.09
dang 970 0.20 564806 0.29 0.09
mu 1435 0.30 408250 0.21 0.09
can 774 0.16 141816 0.07 0.09
tu 1264 0.26 341681 0.18 0.09
yve 1630 0.34 491401 0.26 0.09
jiang 855 0.18 511050 0.27 0.09
cheng 1715 0.36 857501 0.45 0.09
chang 2504 0.52 849564 0.44 0.08
dian 1825 0.38 575699 0.30 0.08
chong 760 0.16 146742 0.08 0.08
yin 1470 0.31 750738 0.39 0.08
ze 337 0.07 293345 0.15 0.08
neng 1259 0.26 665358 0.35 0.08
gong 3046 0.64 1072260 0.56 0.08
le 5907 1.24 2226721 1.16 0.08
shan 1089 0.23 284678 0.15 0.08
ge 4715 0.99 1748292 0.91 0.08
xia 2202 0.46 734342 0.38 0.08
ran 981 0.21 549902 0.29 0.08
fang 2544 0.53 874075 0.45 0.08
qing 2296 0.48 774492 0.40 0.08
bing 945 0.20 533163 0.28 0.08
zhuo 499 0.10 51036 0.03 0.08
po 809 0.17 176842 0.09 0.08
nuan 94 0.02 185188 0.10 0.08
she 718 0.15 433892 0.23 0.07
mao 777 0.16 170048 0.09 0.07
du 959 0.20 248897 0.13 0.07
ting 1119 0.23 314552 0.16 0.07
hu 1507 0.32 471675 0.24 0.07
cai 1397 0.29 427296 0.22 0.07
zheng 2101 0.44 983292 0.51 0.07
jie 3085 0.65 1109315 0.58 0.07
deng 549 0.12 356833 0.19 0.07
xiang 3572 0.75 1575940 0.82 0.07
hou 1528 0.32 749405 0.39 0.07
bao 1866 0.39 620534 0.32 0.07
ding 965 0.20 521121 0.27 0.07
bi 1370 0.29 421278 0.22 0.07
luo 472 0.10 61411 0.03 0.07
tiao 911 0.19 242251 0.13 0.07
qie 402 0.08 287521 0.15 0.07
ti 1488 0.31 724525 0.38 0.06
te 286 0.06 239091 0.12 0.06
ying 1452 0.30 698618 0.36 0.06
chen 436 0.09 288341 0.15 0.06
ni 1734 0.36 812061 0.42 0.06
qian 1861 0.39 638821 0.33 0.06
pao 523 0.11 99236 0.05 0.06
chuan 973 0.20 280973 0.15 0.06
cao 484 0.10 84874 0.04 0.06
chan 451 0.09 291680 0.15 0.06
qve 526 0.11 321359 0.17 0.06
pian 661 0.14 158598 0.08 0.06
gai 565 0.12 335105 0.17 0.06
gu 1338 0.28 432908 0.22 0.06
nao 494 0.10 93398 0.05 0.05
diao 674 0.14 167083 0.09 0.05
lei 334 0.07 238732 0.12 0.05
pa 497 0.10 96735 0.05 0.05
ri 1157 0.24 363763 0.19 0.05
gua 361 0.08 43244 0.02 0.05
zhao 972 0.20 289937 0.15 0.05
zao 926 0.19 272008 0.14 0.05
bo 812 0.17 226232 0.12 0.05
kuai 654 0.14 163050 0.08 0.05
su 540 0.11 318074 0.17 0.05
ai 777 0.16 213586 0.11 0.05
kou 763 0.16 208960 0.11 0.05
ku 573 0.12 132880 0.07 0.05
gei 781 0.16 217815 0.11 0.05
dan 1495 0.31 700482 0.36 0.05
jiu 2650 0.56 1166024 0.61 0.05
ping 937 0.20 281773 0.15 0.05
you 7045 1.48 2746758 1.43 0.05
ling 901 0.19 457865 0.24 0.05
peng 488 0.10 102631 0.05 0.05
re 412 0.09 72069 0.04 0.05
guang 823 0.17 238613 0.12 0.05
jvn 919 0.19 463498 0.24 0.05
pi 704 0.15 376008 0.20 0.05
niu 348 0.07 52960 0.03 0.05
hao 1636 0.34 573206 0.30 0.05
dou 1554 0.33 541323 0.28 0.04
lang 394 0.08 73480 0.04 0.04
liu 1079 0.23 351731 0.18 0.04
mo 475 0.10 273029 0.14 0.04
jian 3397 0.71 1451889 0.75 0.04
zhan 1249 0.26 584585 0.30 0.04
liao 523 0.11 130518 0.07 0.04
mang 361 0.08 65817 0.03 0.04
dong 1988 0.42 723244 0.38 0.04
zou 708 0.15 208069 0.11 0.04
die 281 0.06 37329 0.02 0.04
lan 540 0.11 142369 0.07 0.04
lun 325 0.07 55675 0.03 0.04
xie 1515 0.32 686105 0.36 0.04
bei 1480 0.31 670092 0.35 0.04
bang 397 0.08 87257 0.05 0.04
ben 840 0.18 411819 0.21 0.04
tai 1201 0.25 412339 0.21 0.04
hei 388 0.08 84324 0.04 0.04
zhu 2198 0.46 958453 0.50 0.04
qi 4202 0.88 1765121 0.92 0.04
pai 611 0.13 177618 0.09 0.04
gang 516 0.11 140899 0.07 0.03
tong 2087 0.44 909188 0.47 0.03
zui 810 0.17 392734 0.20 0.03
huo 1602 0.34 712024 0.37 0.03
gui 534 0.11 280303 0.15 0.03
tou 1153 0.24 400461 0.21 0.03
hui 2768 0.58 1181130 0.61 0.03
pang 302 0.06 57763 0.03 0.03
zhen 878 0.18 418098 0.22 0.03
gao 1335 0.28 475204 0.25 0.03
zong 516 0.11 271651 0.14 0.03
xiong 417 0.09 104841 0.05 0.03
mou 131 0.03 116225 0.06 0.03
sai 294 0.06 55584 0.03 0.03
hang 282 0.06 51372 0.03 0.03
yong 1462 0.31 652185 0.34 0.03
chuang 464 0.10 125052 0.06 0.03
niao 226 0.05 29319 0.02 0.03
ya 869 0.18 289491 0.15 0.03
kai 1139 0.24 398586 0.21 0.03
shuang 341 0.07 76927 0.04 0.03
shou 2141 0.45 803601 0.42 0.03
ren 5599 1.17 2318926 1.20 0.03
min 731 0.15 354208 0.18 0.03
ceng 209 0.04 143033 0.07 0.03
rang 480 0.10 136101 0.07 0.03
a 215 0.05 143836 0.07 0.03
xiu 462 0.10 129816 0.07 0.03
meng 191 0.04 132845 0.07 0.03
piao 295 0.06 63377 0.03 0.03
chu 2890 0.61 1221539 0.63 0.03
zhuang 680 0.14 220567 0.11 0.03
hong 505 0.11 149967 0.08 0.03
yang 1598 0.33 698164 0.36 0.03
bian 1614 0.34 597897 0.31 0.03
duo 1721 0.36 747728 0.39 0.03
huai 369 0.08 97699 0.05 0.03
me 1065 0.22 480720 0.25 0.03
lu 1022 0.21 362789 0.19 0.03
ruo 100 0.02 89865 0.05 0.03
lin 598 0.13 192140 0.10 0.03
wai 867 0.18 300896 0.16 0.03
li 5841 1.22 2308041 1.20 0.03
nei 453 0.09 231331 0.12 0.03
tao 485 0.10 147601 0.08 0.02
ne 397 0.08 112185 0.06 0.02
rou 232 0.05 45636 0.02 0.02
man 582 0.12 188310 0.10 0.02
duan 499 0.10 247728 0.13 0.02
sao 182 0.04 27351 0.01 0.02
leng 267 0.06 62152 0.03 0.02
chui 193 0.04 32523 0.02 0.02
jin 2994 0.63 1163074 0.60 0.02
tan 668 0.14 224714 0.12 0.02
zu 744 0.16 344981 0.18 0.02
hun 350 0.07 96486 0.05 0.02
se 495 0.10 155077 0.08 0.02
xvan 375 0.08 195599 0.10 0.02
ming 1617 0.34 696618 0.36 0.02
chai 125 0.03 7276 0.00 0.02
yao 2553 0.53 988311 0.51 0.02
diu 131 0.03 11285 0.01 0.02
shun 208 0.04 42354 0.02 0.02
shua 136 0.03 13882 0.01 0.02
guan 1854 0.39 788407 0.41 0.02
nve 0 0.00 40022 0.02 0.02
kong 745 0.16 260769 0.14 0.02
wang 1445 0.30 545917 0.28 0.02
wu 3310 0.69 1372087 0.71 0.02
la 543 0.11 183642 0.10 0.02
nan 970 0.20 356362 0.19 0.02
qiang 662 0.14 232291 0.12 0.02
cun 344 0.07 173519 0.09 0.02
jing 2854 0.60 1186243 0.62 0.02
mian 1334 0.28 503878 0.26 0.02
gou 484 0.10 229650 0.12 0.02
huang 373 0.08 184840 0.10 0.02
fan 1223 0.26 459450 0.24 0.02
pu 260 0.05 138110 0.07 0.02
sha 446 0.09 147176 0.08 0.02
pen 118 0.02 16807 0.01 0.02
san 940 0.20 349119 0.18 0.02
kuang 308 0.06 153891 0.08 0.02
sa 48 0.01 48768 0.03 0.02
jve 882 0.18 384873 0.20 0.02
lv 726 0.15 264565 0.14 0.01
na 1992 0.42 831925 0.43 0.01
tuo 232 0.05 121320 0.06 0.01
wen 1658 0.35 695970 0.36 0.01
kuo 136 0.03 81713 0.04 0.01
tang 367 0.08 122309 0.06 0.01
zen 341 0.07 112294 0.06 0.01
ta 5952 1.25 2376365 1.23 0.01
dun 156 0.03 87900 0.05 0.01
bie 406 0.09 188222 0.10 0.01
qvn 245 0.05 74521 0.04 0.01
geng 442 0.09 202642 0.11 0.01
gun 104 0.02 18003 0.01 0.01
weng 80 0.02 8702 0.00 0.01
ou 102 0.02 64452 0.03 0.01
ke 3051 0.64 1254178 0.65 0.01
nai 230 0.05 69877 0.04 0.01
wa 176 0.04 48764 0.03 0.01
zhua 35 0.01 36094 0.02 0.01
guo 4619 0.97 1841775 0.96 0.01
rui 18 0.00 28898 0.02 0.01
qiao 315 0.07 105464 0.05 0.01
yan 2013 0.42 791181 0.41 0.01
heng 93 0.02 58378 0.03 0.01
ca 91 0.02 15954 0.01 0.01
jv 1649 0.35 685312 0.36 0.01
an 1086 0.23 418511 0.22 0.01
shei 201 0.04 61528 0.03 0.01
ken 166 0.03 47955 0.02 0.01
sun 218 0.05 69029 0.04 0.01
kang 182 0.04 91959 0.05 0.01
han 459 0.10 203571 0.11 0.01
zhai 170 0.04 50407 0.03 0.01
sui 559 0.12 243720 0.13 0.01
cang 115 0.02 28725 0.01 0.01
nin 83 0.02 51094 0.03 0.01
tuan 215 0.05 104151 0.05 0.01
bin 105 0.02 25234 0.01 0.01
zeng 213 0.04 103042 0.05 0.01
zhun 240 0.05 113877 0.06 0.01
tun 77 0.02 14204 0.01 0.01
lian 1007 0.21 389564 0.20 0.01
zei 58 0.01 7045 0.00 0.01
suan 260 0.05 121239 0.06 0.01
cuo 275 0.06 94761 0.05 0.01
kuan 127 0.03 67005 0.03 0.01
sang 120 0.03 32783 0.02 0.01
zang 100 0.02 55933 0.03 0.01
en 56 0.01 37898 0.02 0.01
shao 673 0.14 256246 0.13 0.01
cui 61 0.01 39761 0.02 0.01
kui 126 0.03 35822 0.02 0.01
zhuan 498 0.10 215756 0.11 0.01
pin 493 0.10 184837 0.10 0.01
nian 1758 0.37 695312 0.36 0.01
guai 172 0.04 55710 0.03 0.01
mie 59 0.01 37465 0.02 0.01
zhou 626 0.13 239028 0.12 0.01
qiong 91 0.02 23167 0.01 0.01
gan 1089 0.23 426276 0.22 0.01
nie 0 0.00 12991 0.01 0.01
chun 167 0.03 79748 0.04 0.01
dai 1202 0.25 497044 0.26 0.01
qia 23 0.00 21271 0.01 0.01
reng 216 0.05 75535 0.04 0.01
fou 134 0.03 64772 0.03 0.01
lou 155 0.03 52042 0.03 0.01
miao 147 0.03 68770 0.04 0.00
cu 138 0.03 46527 0.02 0.00
ruan 53 0.01 30350 0.02 0.00
sen 95 0.02 29533 0.02 0.00
kao 301 0.06 130219 0.07 0.00
zhui 126 0.03 59572 0.03 0.00
ha 150 0.03 52475 0.03 0.00
zuan 44 0.01 10064 0.01 0.00
za 128 0.03 44146 0.02 0.00
song 396 0.08 152392 0.08 0.00
lie 428 0.09 165597 0.09 0.00
sou 90 0.02 29413 0.02 0.00
eng 0 0.00 6707 0.00 0.00
jvan 113 0.02 51759 0.03 0.00
zan 135 0.03 60431 0.03 0.00
zha 182 0.04 68234 0.04 0.00
rong 395 0.08 164398 0.09 0.00
shai 23 0.00 4290 0.00 0.00
tie 168 0.04 62877 0.03 0.00
teng 79 0.02 27136 0.01 0.00
gen 476 0.10 196736 0.10 0.00
fo 105 0.02 47038 0.02 0.00
chao 393 0.08 163164 0.08 0.00
o 0 0.00 4582 0.00 0.00
cha 644 0.13 255265 0.13 0.00
qvan 1258 0.26 503025 0.26 0.00
ao 161 0.03 60455 0.03 0.00
seng 6 0.00 6920 0.00 0.00
cong 1015 0.21 405173 0.21 0.00
pei 272 0.06 114110 0.06 0.00
nong 336 0.07 131225 0.07 0.00
miu 0 0.00 4290 0.00 0.00
chuo 0 0.00 4140 0.00 0.00
sheng 2861 0.60 1150523 0.60 0.00
pan 260 0.05 108530 0.06 0.00
rao 92 0.02 33503 0.02 0.00
tui 374 0.08 154449 0.08 0.00
run 34 0.01 16922 0.01 0.00
biao 801 0.17 320022 0.17 0.00
long 227 0.05 94753 0.05 0.00
nuo 32 0.01 9762 0.01 0.00
nang 9 0.00 6709 0.00 0.00
kua 57 0.01 19956 0.01 0.00
pie 5 0.00 5059 0.00 0.00
chuai 12 0.00 1829 0.00 0.00
kun 141 0.03 53949 0.03 0.00
zun 97 0.02 36597 0.02 0.00
xvn 427 0.09 169768 0.09 0.00
ka 144 0.03 60440 0.03 0.00
keng 23 0.00 6954 0.00 0.00
niang 107 0.02 40907 0.02 0.00
fen 1410 0.30 566699 0.29 0.00
shuai 72 0.02 26859 0.01 0.00
cuan 8 0.00 5002 0.00 0.00
ang 29 0.01 10267 0.01 0.00
zhuai 0 0.00 1396 0.00 0.00
fu 2622 0.55 1056555 0.55 0.00
e 269 0.06 109896 0.06 0.00
yvn 546 0.11 219022 0.11 0.00
jiong 7 0.00 4019 0.00 0.00
shuan 6 0.00 3605 0.00 0.00
mi 568 0.12 230299 0.12 0.00
cen 0 0.00 1069 0.00 0.00
bu 7294 1.53 2943968 1.53 0.00
cou 16 0.00 5544 0.00 0.00
nen 11 0.00 3707 0.00 0.00
ga 14 0.00 5050 0.00 0.00
pou 8 0.00 3767 0.00 0.00
beng 32 0.01 12432 0.01 0.00
chou 210 0.04 85191 0.04 0.00
ning 108 0.02 44017 0.02 0.00
ce 320 0.07 128686 0.07 0.00
yo 8 0.00 3635 0.00 0.00
nu 169 0.04 67922 0.04 0.00

 

Resource: http://lingua.mtsu.edu/chinese-computing/phonology/syllable.php