gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	601
Missing cells	428
Missing cells (%)	10.2%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	33.0 KiB
Average record size in memory	56.2 B

Variable types

Text	7

Dataset

Description	한국한의약진흥원에서 생산 및 도출된 실험정보기반의 정형데이터(표준용어 : 한약재ID, 일반명, 영문명, 라틴명, 기원종, 학명, 약용부위)로 이루어져 있습니다.
Author	한국한의약진흥원
URL	https://www.data.go.kr/data/15109111/fileData.do

Alerts

`영문명` has 333 (55.4%) missing values	Missing
`라틴명` has 10 (1.7%) missing values	Missing
`학명목록` has 40 (6.7%) missing values	Missing
`약용부위` has 45 (7.5%) missing values	Missing
`한약재아이디` has unique values	Unique

Reproduction

Analysis started	2023-12-12 09:55:09.460704
Analysis finished	2023-12-12 09:55:10.571134
Duration	1.11 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

한약재아이디
Text

UNIQUE

Distinct	601
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	4.8 KiB

Length

Max length	6
Median length	6
Mean length	5.8702163
Min length	4

Characters and Unicode

Total characters	3528
Distinct characters	13
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	601 ?
Unique (%)	100.0%

Sample

1st row	KMH2
2nd row	KMH3
3rd row	KMH5
4th row	KMH6
5th row	KMH7

Value	Count	Frequency (%)
kmh2	1	0.2%
kmh578	1	0.2%
kmh581	1	0.2%
kmh582	1	0.2%
kmh583	1	0.2%
kmh584	1	0.2%
kmh585	1	0.2%
kmh587	1	0.2%
kmh588	1	0.2%
kmh591	1	0.2%
Other values (591)	591	98.3%

Most occurring characters

Value	Count	Frequency (%)
K	601	17.0%
M	601	17.0%
H	601	17.0%
5	197	5.6%
3	195	5.5%
6	195	5.5%
7	194	5.5%
1	189	5.4%
4	189	5.4%
2	178	5.0%
Other values (3)	388	11.0%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	1803	51.1%
Decimal Number	1725	48.9%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
5	197	11.4%
3	195	11.3%
6	195	11.3%
7	194	11.2%
1	189	11.0%
4	189	11.0%
2	178	10.3%
8	168	9.7%
9	110	6.4%
0	110	6.4%

Uppercase Letter

Value	Count	Frequency (%)
K	601	33.3%
M	601	33.3%
H	601	33.3%

Most occurring scripts

Value	Count	Frequency (%)
Latin	1803	51.1%
Common	1725	48.9%

Most frequent character per script

Common

Value	Count	Frequency (%)
5	197	11.4%
3	195	11.3%
6	195	11.3%
7	194	11.2%
1	189	11.0%
4	189	11.0%
2	178	10.3%
8	168	9.7%
9	110	6.4%
0	110	6.4%

Latin

Value	Count	Frequency (%)
K	601	33.3%
M	601	33.3%
H	601	33.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	3528	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
K	601	17.0%
M	601	17.0%
H	601	17.0%
5	197	5.6%
3	195	5.5%
6	195	5.5%
7	194	5.5%
1	189	5.4%
4	189	5.4%
2	178	5.0%
Other values (3)	388	11.0%

일반명
Text

Distinct	600
Distinct (%)	99.8%
Missing	0
Missing (%)	0.0%
Memory size	4.8 KiB

Length

Max length	9
Median length	8
Mean length	2.81198
Min length	2

Characters and Unicode

Total characters	1690
Distinct characters	291
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	599 ?
Unique (%)	99.7%

Sample

1st row	가자
2nd row	갈근
3rd row	갈화
4th row	감국
5th row	감송향

Value	Count	Frequency (%)
진피	2	0.3%
익모초	1	0.2%
자소엽	1	0.2%
일당귀	1	0.2%
익지	1	0.2%
인도사목	1	0.2%
인동	1	0.2%
인삼	1	0.2%
인삼가루	1	0.2%
인진호	1	0.2%
Other values (590)	590	98.2%

Most occurring characters

Value	Count	Frequency (%)
자	91	5.4%
가	59	3.5%
초	55	3.3%
루	54	3.2%
백	36	2.1%
지	31	1.8%
황	30	1.8%
사	28	1.7%
석	27	1.6%
근	26	1.5%
Other values (281)	1253	74.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1688	99.9%
Open Punctuation	1	0.1%
Close Punctuation	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
자	91	5.4%
가	59	3.5%
초	55	3.3%
루	54	3.2%
백	36	2.1%
지	31	1.8%
황	30	1.8%
사	28	1.7%
석	27	1.6%
근	26	1.5%
Other values (279)	1251	74.1%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1688	99.9%
Common	2	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
자	91	5.4%
가	59	3.5%
초	55	3.3%
루	54	3.2%
백	36	2.1%
지	31	1.8%
황	30	1.8%
사	28	1.7%
석	27	1.6%
근	26	1.5%
Other values (279)	1251	74.1%

Common

Value	Count	Frequency (%)
(	1	50.0%
)	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1688	99.9%
ASCII	2	0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
자	91	5.4%
가	59	3.5%
초	55	3.3%
루	54	3.2%
백	36	2.1%
지	31	1.8%
황	30	1.8%
사	28	1.7%
석	27	1.6%
근	26	1.5%
Other values (279)	1251	74.1%

ASCII

Value	Count	Frequency (%)
(	1	50.0%
)	1	50.0%

영문명
Text

MISSING

Distinct	268
Distinct (%)	100.0%
Missing	333
Missing (%)	55.4%
Memory size	4.8 KiB

Length

Max length	35
Median length	26
Mean length	14.738806
Min length	4

Characters and Unicode

Total characters	3950
Distinct characters	53
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	268 ?
Unique (%)	100.0%

Sample

1st row	Terminalia Fruit
2nd row	Pueraria Root
3rd row	Pueraria Flower
4th row	Licorice
5th row	Licorice Powder

Value	Count	Frequency (%)
powder	51	8.8%
root	51	8.8%
rhizome	31	5.3%
fruit	27	4.7%
seed	17	2.9%
bark	16	2.8%
herb	10	1.7%
leaf	8	1.4%
and	7	1.2%
peel	5	0.9%
Other values (260)	357	61.6%

Most occurring characters

Value	Count	Frequency (%)
o	351	8.9%
e	346	8.8%
	312	7.9%
r	291	7.4%
a	283	7.2%
i	268	6.8%
t	186	4.7%
n	174	4.4%
u	162	4.1%
l	144	3.6%
Other values (43)	1433	36.3%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	3070	77.7%
Uppercase Letter	563	14.3%
Space Separator	312	7.9%
Other Punctuation	5	0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
o	351	11.4%
e	346	11.3%
r	291	9.5%
a	283	9.2%
i	268	8.7%
t	186	6.1%
n	174	5.7%
u	162	5.3%
l	144	4.7%
d	131	4.3%
Other values (15)	734	23.9%

Uppercase Letter

Value	Count	Frequency (%)
R	94	16.7%
P	93	16.5%
S	51	9.1%
A	43	7.6%
F	42	7.5%
C	40	7.1%
G	30	5.3%
B	30	5.3%
L	24	4.3%
T	17	3.0%
Other values (14)	99	17.6%

Other Punctuation

Value	Count	Frequency (%)
,	3	60.0%
'	1	20.0%
.	1	20.0%

Space Separator

Value	Count	Frequency (%)
	312	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	3633	92.0%
Common	317	8.0%

Most frequent character per script

Latin

Value	Count	Frequency (%)
o	351	9.7%
e	346	9.5%
r	291	8.0%
a	283	7.8%
i	268	7.4%
t	186	5.1%
n	174	4.8%
u	162	4.5%
l	144	4.0%
d	131	3.6%
Other values (39)	1297	35.7%

Common

Value	Count	Frequency (%)
	312	98.4%
,	3	0.9%
'	1	0.3%
.	1	0.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	3950	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
o	351	8.9%
e	346	8.8%
	312	7.9%
r	291	7.4%
a	283	7.2%
i	268	6.8%
t	186	4.7%
n	174	4.4%
u	162	4.1%
l	144	3.6%
Other values (43)	1433	36.3%

라틴명
Text

MISSING

Distinct	591
Distinct (%)	100.0%
Missing	10
Missing (%)	1.7%
Memory size	4.8 KiB

Length

Max length	56
Median length	42
Mean length	19.162437
Min length	4

Characters and Unicode

Total characters	11325
Distinct characters	62
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	591 ?
Unique (%)	100.0%

Sample

1st row	Terminaliae Fructus
2nd row	Puerariae Radix
3rd row	Puerariae Flos
4th row	Chrysanthemi Indici Flos
5th row	Nardostachyos Radix et Rhizoma

Value	Count	Frequency (%)
radix	98	6.7%
rhizoma	68	4.6%
fructus	62	4.2%
herba	59	4.0%
semen	59	4.0%
pulvis	47	3.2%
et	37	2.5%
cortex	25	1.7%
preparata	22	1.5%
radicis	20	1.4%
Other values (609)	975	66.2%

Most occurring characters

Value	Count	Frequency (%)
i	1231	10.9%
a	1124	9.9%
e	906	8.0%
	881	7.8%
r	643	5.7%
u	552	4.9%
s	552	4.9%
o	516	4.6%
t	450	4.0%
n	440	3.9%
Other values (52)	4030	35.6%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	9016	79.6%
Uppercase Letter	1416	12.5%
Space Separator	881	7.8%
Decimal Number	5	< 0.1%
Other Punctuation	3	< 0.1%
Other Letter	2	< 0.1%
Close Punctuation	1	< 0.1%
Open Punctuation	1	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
i	1231	13.7%
a	1124	12.5%
e	906	10.0%
r	643	7.1%
u	552	6.1%
s	552	6.1%
o	516	5.7%
t	450	5.0%
n	440	4.9%
l	431	4.8%
Other values (16)	2171	24.1%

Uppercase Letter

Value	Count	Frequency (%)
R	245	17.3%
P	163	11.5%
C	155	10.9%
S	151	10.7%
F	124	8.8%
A	87	6.1%
H	79	5.6%
G	58	4.1%
L	53	3.7%
M	47	3.3%
Other values (15)	254	17.9%

Decimal Number

Value	Count	Frequency (%)
2	2	40.0%
0	1	20.0%
1	1	20.0%
9	1	20.0%

Other Punctuation

Value	Count	Frequency (%)
.	2	66.7%
'	1	33.3%

Other Letter

Value	Count	Frequency (%)
정	1	50.0%
개	1	50.0%

Space Separator

Value	Count	Frequency (%)
	881	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	10432	92.1%
Common	891	7.9%
Hangul	2	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
i	1231	11.8%
a	1124	10.8%
e	906	8.7%
r	643	6.2%
u	552	5.3%
s	552	5.3%
o	516	4.9%
t	450	4.3%
n	440	4.2%
l	431	4.1%
Other values (41)	3587	34.4%

Common

Value	Count	Frequency (%)
	881	98.9%
2	2	0.2%
.	2	0.2%
)	1	0.1%
0	1	0.1%
1	1	0.1%
9	1	0.1%
'	1	0.1%
(	1	0.1%

Hangul

Value	Count	Frequency (%)
정	1	50.0%
개	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	11323	> 99.9%
Hangul	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
i	1231	10.9%
a	1124	9.9%
e	906	8.0%
	881	7.8%
r	643	5.7%
u	552	4.9%
s	552	4.9%
o	516	4.6%
t	450	4.0%
n	440	3.9%
Other values (50)	4028	35.6%

Hangul

Value	Count	Frequency (%)
정	1	50.0%
개	1	50.0%

기원종목록
Text

Distinct	494
Distinct (%)	82.2%
Missing	0
Missing (%)	0.0%
Memory size	4.8 KiB

Length

Max length	62
Median length	33
Mean length	7.1281198
Min length	1

Characters and Unicode

Total characters	4284
Distinct characters	460
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	417 ?
Unique (%)	69.4%

Sample

1st row	가자, 융모가자
2nd row	칡
3rd row	칡
4th row	감국
5th row	감송, 시엽감송

Value	Count	Frequency (%)
기타	35	3.4%
동속식물	14	1.4%
근연식물	13	1.3%
동속근연식물	11	1.1%
동속	10	1.0%
근연동물	6	0.6%
변종	6	0.6%
황산염광물	6	0.6%
두충	5	0.5%
인삼	5	0.5%
Other values (712)	910	89.1%

Most occurring characters

Value	Count	Frequency (%)
	420	9.8%
,	330	7.7%
나	111	2.6%
무	105	2.5%
물	81	1.9%
기	69	1.6%
동	68	1.6%
황	68	1.6%
속	52	1.2%
연	52	1.2%
Other values (450)	2928	68.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	3169	74.0%
Space Separator	420	9.8%
Lowercase Letter	334	7.8%
Other Punctuation	333	7.8%
Uppercase Letter	21	0.5%
Decimal Number	5	0.1%
Open Punctuation	1	< 0.1%
Close Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
나	111	3.5%
무	105	3.3%
물	81	2.6%
기	69	2.2%
동	68	2.1%
황	68	2.1%
속	52	1.6%
연	52	1.6%
초	51	1.6%
타	47	1.5%
Other values (412)	2465	77.8%

Lowercase Letter

Value	Count	Frequency (%)
a	50	15.0%
i	34	10.2%
e	28	8.4%
t	27	8.1%
l	25	7.5%
r	22	6.6%
s	21	6.3%
c	20	6.0%
u	20	6.0%
n	18	5.4%
Other values (11)	69	20.7%

Uppercase Letter

Value	Count	Frequency (%)
A	7	33.3%
C	4	19.0%
G	2	9.5%
P	2	9.5%
O	2	9.5%
H	1	4.8%
B	1	4.8%
V	1	4.8%
S	1	4.8%

Decimal Number

Value	Count	Frequency (%)
1	3	60.0%
3	1	20.0%
7	1	20.0%

Other Punctuation

Value	Count	Frequency (%)
,	330	99.1%
.	3	0.9%

Space Separator

Value	Count	Frequency (%)
	420	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	3169	74.0%
Common	760	17.7%
Latin	355	8.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
나	111	3.5%
무	105	3.3%
물	81	2.6%
기	69	2.2%
동	68	2.1%
황	68	2.1%
속	52	1.6%
연	52	1.6%
초	51	1.6%
타	47	1.5%
Other values (412)	2465	77.8%

Latin

Value	Count	Frequency (%)
a	50	14.1%
i	34	9.6%
e	28	7.9%
t	27	7.6%
l	25	7.0%
r	22	6.2%
s	21	5.9%
c	20	5.6%
u	20	5.6%
n	18	5.1%
Other values (20)	90	25.4%

Common

Value	Count	Frequency (%)
	420	55.3%
,	330	43.4%
.	3	0.4%
1	3	0.4%
3	1	0.1%
(	1	0.1%
7	1	0.1%
)	1	0.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	3169	74.0%
ASCII	1115	26.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	420	37.7%
,	330	29.6%
a	50	4.5%
i	34	3.0%
e	28	2.5%
t	27	2.4%
l	25	2.2%
r	22	2.0%
s	21	1.9%
c	20	1.8%
Other values (28)	138	12.4%

Hangul

Value	Count	Frequency (%)
나	111	3.5%
무	105	3.3%
물	81	2.6%
기	69	2.2%
동	68	2.1%
황	68	2.1%
속	52	1.6%
연	52	1.6%
초	51	1.6%
타	47	1.5%
Other values (412)	2465	77.8%

학명목록
Text

MISSING

Distinct	462
Distinct (%)	82.4%
Missing	40
Missing (%)	6.7%
Memory size	4.8 KiB

Length

Max length	183
Median length	117
Mean length	43.046346
Min length	9

Characters and Unicode

Total characters	24149
Distinct characters	60
Distinct categories	7 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	389 ?
Unique (%)	69.3%

Sample

1st row	Terminalia chebula Retzins, Terminalia chebula Retzins var. tomentella Kurt.
2nd row	Pueraria lobata Ohwi
3rd row	Pueraria lobata Ohwi
4th row	Chrysanthemum indicum Linn.
5th row	Nardostachys chinensis Batal, Nardostachys jatamansi DC.

Value	Count	Frequency (%)
linn	160	5.3%
et	63	2.1%
var	61	2.0%
ex	26	0.9%
japonica	26	0.9%
maximowicz	23	0.8%
siebold	21	0.7%
c	20	0.7%
nakai	19	0.6%
thunberg	19	0.6%
Other values (1317)	2563	85.4%

Most occurring characters

Value	Count	Frequency (%)
	2441	10.1%
a	2304	9.5%
i	2120	8.8%
n	1609	6.7%
e	1541	6.4%
r	1280	5.3%
o	1154	4.8%
s	1152	4.8%
u	1117	4.6%
l	1028	4.3%
Other values (50)	8403	34.8%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	18927	78.4%
Space Separator	2441	10.1%
Uppercase Letter	1981	8.2%
Other Punctuation	693	2.9%
Close Punctuation	52	0.2%
Open Punctuation	52	0.2%
Math Symbol	3	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
a	2304	12.2%
i	2120	11.2%
n	1609	8.5%
e	1541	8.1%
r	1280	6.8%
o	1154	6.1%
s	1152	6.1%
u	1117	5.9%
l	1028	5.4%
t	894	4.7%
Other values (16)	4728	25.0%

Uppercase Letter

Value	Count	Frequency (%)
L	265	13.4%
C	194	9.8%
S	163	8.2%
P	144	7.3%
M	141	7.1%
A	137	6.9%
B	130	6.6%
H	94	4.7%
G	88	4.4%
R	85	4.3%
Other values (16)	540	27.3%

Other Punctuation

Value	Count	Frequency (%)
.	424	61.2%
,	266	38.4%
&	3	0.4%

Open Punctuation

Value	Count	Frequency (%)
(	51	98.1%
（	1	1.9%

Space Separator

Value	Count	Frequency (%)
	2441	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	52	100.0%

Math Symbol

Value	Count	Frequency (%)
=	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	20908	86.6%
Common	3241	13.4%

Most frequent character per script

Latin

Value	Count	Frequency (%)
a	2304	11.0%
i	2120	10.1%
n	1609	7.7%
e	1541	7.4%
r	1280	6.1%
o	1154	5.5%
s	1152	5.5%
u	1117	5.3%
l	1028	4.9%
t	894	4.3%
Other values (42)	6709	32.1%

Common

Value	Count	Frequency (%)
	2441	75.3%
.	424	13.1%
,	266	8.2%
)	52	1.6%
(	51	1.6%
=	3	0.1%
&	3	0.1%
（	1	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	24148	> 99.9%
None	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	2441	10.1%
a	2304	9.5%
i	2120	8.8%
n	1609	6.7%
e	1541	6.4%
r	1280	5.3%
o	1154	4.8%
s	1152	4.8%
u	1117	4.6%
l	1028	4.3%
Other values (49)	8402	34.8%

None

Value	Count	Frequency (%)
（	1	100.0%

약용부위
Text

MISSING

Distinct	149
Distinct (%)	26.8%
Missing	45
Missing (%)	7.5%
Memory size	4.8 KiB

Length

Max length	43
Median length	34
Mean length	4.1564748
Min length	1

Characters and Unicode

Total characters	2311
Distinct characters	225
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	104 ?
Unique (%)	18.7%

Sample

1st row	열매
2nd row	뿌리
3rd row	꽃봉오리, 막 피기 시작한 꽃
4th row	꽃
5th row	뿌리, 뿌리줄기

Value	Count	Frequency (%)
뿌리	103	13.0%
뿌리줄기	74	9.4%
열매	59	7.5%
씨	59	7.5%
전초	29	3.7%
지상부	27	3.4%
잎	24	3.0%
줄기껍질	18	2.3%
것	16	2.0%
몸체	14	1.8%
Other values (213)	368	46.5%

Most occurring characters

Value	Count	Frequency (%)
	235	10.2%
리	221	9.6%
뿌	201	8.7%
기	130	5.6%
줄	127	5.5%
열	70	3.0%
,	70	3.0%
매	69	3.0%
씨	65	2.8%
지	55	2.4%
Other values (215)	1068	46.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2004	86.7%
Space Separator	235	10.2%
Other Punctuation	70	3.0%
Close Punctuation	1	< 0.1%
Open Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
리	221	11.0%
뿌	201	10.0%
기	130	6.5%
줄	127	6.3%
열	70	3.5%
매	69	3.4%
씨	65	3.2%
지	55	2.7%
질	52	2.6%
껍	46	2.3%
Other values (211)	968	48.3%

Space Separator

Value	Count	Frequency (%)
	235	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	70	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2003	86.7%
Common	307	13.3%
Han	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
리	221	11.0%
뿌	201	10.0%
기	130	6.5%
줄	127	6.3%
열	70	3.5%
매	69	3.4%
씨	65	3.2%
지	55	2.7%
질	52	2.6%
껍	46	2.3%
Other values (210)	967	48.3%

Common

Value	Count	Frequency (%)
	235	76.5%
,	70	22.8%
)	1	0.3%
(	1	0.3%

Han

Value	Count	Frequency (%)
絲	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2003	86.7%
ASCII	307	13.3%
CJK	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	235	76.5%
,	70	22.8%
)	1	0.3%
(	1	0.3%

Hangul

Value	Count	Frequency (%)
리	221	11.0%
뿌	201	10.0%
기	130	6.5%
줄	127	6.3%
열	70	3.5%
매	69	3.4%
씨	65	3.2%
지	55	2.7%
질	52	2.6%
껍	46	2.3%
Other values (210)	967	48.3%

CJK

Value	Count	Frequency (%)
絲	1	100.0%

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	한약재아이디	일반명	영문명	라틴명	기원종목록	학명목록	약용부위
0	KMH2	가자	Terminalia Fruit	Terminaliae Fructus	가자, 융모가자	Terminalia chebula Retzins, Terminalia chebula Retzins var. tomentella Kurt.	열매
1	KMH3	갈근	Pueraria Root	Puerariae Radix	칡	Pueraria lobata Ohwi	뿌리
2	KMH5	갈화	Pueraria Flower	Puerariae Flos	칡	Pueraria lobata Ohwi	꽃봉오리, 막 피기 시작한 꽃
3	KMH6	감국	<NA>	Chrysanthemi Indici Flos	감국	Chrysanthemum indicum Linn.	꽃
4	KMH7	감송향	<NA>	Nardostachyos Radix et Rhizoma	감송, 시엽감송	Nardostachys chinensis Batal, Nardostachys jatamansi DC.	뿌리, 뿌리줄기
5	KMH8	감수	<NA>	Euphorbiae Kansui Radix	감수	Euphorbia kansui Liou ex Wang	덩이뿌리
6	KMH9	감초	Licorice	Glycyrrhizae Radix et Rhizoma	감초, 광과감초, 창과감초	Glycyrrhiza uralensis Fischer, Glycyrrhiza glabra Linn., Glycyrrhiza inflata Batal.	뿌리, 뿌리줄기
7	KMH10	감초가루	Licorice Powder	Pulvis Glycyrrhizae Radicis et Rhizomatis	감초, 광과감초, 창과감초	Glycyrrhiza uralensis Fischer, Glycyrrhiza glabra Linn., Glycyrrhiza inflata Batal.	뿌리, 뿌리줄기
8	KMH11	감초밀자	<NA>	Glycyrrhizae Radix Preparata cum Mel	감초, 광과감초, 창과감초	Glycyrrhiza uralensis Fischer, Glycyrrhiza glabra Linn., Glycyrrhiza inflata Batal.	뿌리, 뿌리줄기
9	KMH12	감초초	<NA>	Glycyrrhizae Radix Preparata	감초, 광과감초, 창과감초	Glycyrrhiza uralensis Fischer, Glycyrrhiza glabra Linn., Glycyrrhiza inflata Batal.	뿌리, 뿌리줄기

	한약재아이디	일반명	영문명	라틴명	기원종목록	학명목록	약용부위
591	KMH858	회향	Fennel	Foeniculi Fructus	회향	Foeniculum vulgare Miller	열매
592	KMH860	후박	Magnolia Bark	Magnoliae Cortex	일본목련, 후박, 요엽후박	Magnolia ovobata Thunberg, Magnolia officinalis Rehder et Wilson, Magnolia officinalis Rehder et Wilson var. biloba Rehder et Wilson	줄기껍질
593	KMH862	후추	Black pepper	Piperis Nigri Fructus	후추	Piper nigrum Linn.	열매
594	KMH863	후추가루	Black Pepper Powder	Pulvis Piperis Nigri Fructus	후추	Piper nigrum Linn.	열매
595	KMH864	훤초근	<NA>	Hemerocallidis Radix et Rhizoma	원추리	Hemerocallis fulva Linn.	뿌리, 뿌리줄기
596	KMH865	흑두	<NA>	Glycine Semen Nigra	콩	Glycine max Merrill	씨
597	KMH866	흑사당	Brown sugar	Saccharum Nigrum	사탕수수	Saccharum sinensis Roxburg	조결정체
598	KMH867	흑지마	<NA>	Sesami Semen Nigra	참깨	Sesamum indicum Linn.	씨
599	KMH868	희렴	<NA>	Siegesbeckiae Herba	털진득찰, 진득찰	Siegesbeckia pubescens Makino, Siegesbeckia glabrescens Makino	지상부
600	KMH869	희렴주증	<NA>	Siegesbeckiae Herba Preparata cum Vinum	털진득찰, 진득찰	Siegesbeckia pubescens Makino, Siegesbeckia glabrescens Makino	지상부

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Other Punctuation

Space Separator

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Other Letter

Space Separator

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block