gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	1094
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	14
Duplicate rows (%)	1.3%
Total size in memory	34.3 KiB
Average record size in memory	32.1 B

Variable types

Text	4

Dataset

Description	충청남도산림자원연구소 금강수목원의 보유식물에 대한 데이터로 금강수목원 내 식물에 관한 과 별 분류 및 학명 관련 자료를 제공합니다.
URL	https://www.data.go.kr/data/15015929/fileData.do

Alerts

Dataset has 14 (1.3%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 11:24:31.197748
Analysis finished	2023-12-12 11:24:32.205962
Duration	1.01 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

과국명
Text

Distinct	160
Distinct (%)	14.6%
Missing	0
Missing (%)	0.0%
Memory size	8.7 KiB

Length

Max length	9
Median length	7
Mean length	3.8528336
Min length	2

Characters and Unicode

Total characters	4215
Distinct characters	195
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	63 ?
Unique (%)	5.8%

Sample

1st row	가래나무과
2nd row	가래나무과
3rd row	가래나무과
4th row	가래나무과
5th row	가래나무과

Value	Count	Frequency (%)
돌나물과	104	9.5%
장미	99	9.0%
백합과	55	5.0%
선인장과	50	4.6%
국화과	32	2.9%
목련과	32	2.9%
소나무과	29	2.6%
장미과	28	2.6%
측백나무과	26	2.4%
콩과	25	2.3%
Other values (138)	616	56.2%

Most occurring characters

Value	Count	Frequency (%)
과	986	23.4%
나	401	9.5%
무	284	6.7%
장	183	4.3%
미	141	3.3%
물	131	3.1%
돌	104	2.5%
백	83	2.0%
인	76	1.8%
선	58	1.4%
Other values (185)	1768	41.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	4167	98.9%
Space Separator	47	1.1%
Dash Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
과	986	23.7%
나	401	9.6%
무	284	6.8%
장	183	4.4%
미	141	3.4%
물	131	3.1%
돌	104	2.5%
백	83	2.0%
인	76	1.8%
선	58	1.4%
Other values (183)	1720	41.3%

Space Separator

Value	Count	Frequency (%)
	47	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	4167	98.9%
Common	48	1.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
과	986	23.7%
나	401	9.6%
무	284	6.8%
장	183	4.4%
미	141	3.4%
물	131	3.1%
돌	104	2.5%
백	83	2.0%
인	76	1.8%
선	58	1.4%
Other values (183)	1720	41.3%

Common

Value	Count	Frequency (%)
	47	97.9%
-	1	2.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	4167	98.9%
ASCII	48	1.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
과	986	23.7%
나	401	9.6%
무	284	6.8%
장	183	4.4%
미	141	3.4%
물	131	3.1%
돌	104	2.5%
백	83	2.0%
인	76	1.8%
선	58	1.4%
Other values (183)	1720	41.3%

ASCII

Value	Count	Frequency (%)
	47	97.9%
-	1	2.1%

과명
Text

Distinct	162
Distinct (%)	14.8%
Missing	0
Missing (%)	0.0%
Memory size	8.7 KiB

Length

Max length	17
Median length	15
Mean length	10.33181
Min length	3

Characters and Unicode

Total characters	11303
Distinct characters	48
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	63 ?
Unique (%)	5.8%

Sample

1st row	Juglandaceae
2nd row	Juglandaceae
3rd row	Juglandaceae
4th row	Juglandaceae
5th row	Juglandaceae

Value	Count	Frequency (%)
crassulaceae	104	9.3%
rosaceae	101	9.0%
liliaceae	55	4.9%
cactaceae	50	4.5%
magnoliaceae	32	2.9%
pinaceae	29	2.6%
compositae	27	2.4%
cupressaceae	26	2.3%
prunus	26	2.3%
mune	26	2.3%
Other values (148)	645	57.5%

Most occurring characters

Value	Count	Frequency (%)
a	2618	23.2%
e	2354	20.8%
c	1183	10.5%
i	531	4.7%
r	511	4.5%
s	472	4.2%
l	427	3.8%
o	399	3.5%
u	350	3.1%
n	329	2.9%
Other values (38)	2129	18.8%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	10167	89.9%
Uppercase Letter	1093	9.7%
Space Separator	42	0.4%
Other Punctuation	1	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
a	2618	25.7%
e	2354	23.2%
c	1183	11.6%
i	531	5.2%
r	511	5.0%
s	472	4.6%
l	427	4.2%
o	399	3.9%
u	350	3.4%
n	329	3.2%
Other values (14)	993	9.8%

Uppercase Letter

Value	Count	Frequency (%)
C	281	25.7%
A	137	12.5%
R	128	11.7%
L	107	9.8%
P	86	7.9%
M	71	6.5%
S	50	4.6%
B	46	4.2%
E	36	3.3%
F	31	2.8%
Other values (12)	120	11.0%

Space Separator

Value	Count	Frequency (%)
	42	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	11260	99.6%
Common	43	0.4%

Most frequent character per script

Latin

Value	Count	Frequency (%)
a	2618	23.3%
e	2354	20.9%
c	1183	10.5%
i	531	4.7%
r	511	4.5%
s	472	4.2%
l	427	3.8%
o	399	3.5%
u	350	3.1%
n	329	2.9%
Other values (36)	2086	18.5%

Common

Value	Count	Frequency (%)
	42	97.7%
,	1	2.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	11303	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
a	2618	23.2%
e	2354	20.8%
c	1183	10.5%
i	531	4.7%
r	511	4.5%
s	472	4.2%
l	427	3.8%
o	399	3.5%
u	350	3.1%
n	329	2.9%
Other values (38)	2129	18.8%

이름
Text

Distinct	1009
Distinct (%)	92.2%
Missing	0
Missing (%)	0.0%
Memory size	8.7 KiB

Length

Max length	17
Median length	15
Mean length	4.4661792
Min length	1

Characters and Unicode

Total characters	4886
Distinct characters	555
Distinct categories	7 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	943 ?
Unique (%)	86.2%

Sample

1st row	굴피나무
2nd row	굴피나무
3rd row	가래나무
4th row	중국굴피
5th row	피칸

Value	Count	Frequency (%)
베고니아	6	0.5%
산딸나무	5	0.4%
산벚나무	5	0.4%
아가베	5	0.4%
알로에	4	0.3%
핀참나무	4	0.3%
산수유	4	0.3%
브리에세아	4	0.3%
떡갈나무	3	0.2%
틸란드시아	3	0.2%
Other values (1072)	1169	96.5%

Most occurring characters

Value	Count	Frequency (%)
나	315	6.4%
무	303	6.2%
리	137	2.8%
아	125	2.6%
	121	2.5%
스	77	1.6%
라	63	1.3%
자	59	1.2%
꽃	55	1.1%
산	55	1.1%
Other values (545)	3576	73.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	4684	95.9%
Space Separator	121	2.5%
Open Punctuation	26	0.5%
Close Punctuation	26	0.5%
Lowercase Letter	26	0.5%
Dash Punctuation	2	< 0.1%
Uppercase Letter	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
나	315	6.7%
무	303	6.5%
리	137	2.9%
아	125	2.7%
스	77	1.6%
라	63	1.3%
자	59	1.3%
꽃	55	1.2%
산	55	1.2%
이	51	1.1%
Other values (525)	3444	73.5%

Lowercase Letter

Value	Count	Frequency (%)
s	3	11.5%
c	3	11.5%
a	3	11.5%
t	3	11.5%
p	2	7.7%
i	2	7.7%
e	2	7.7%
r	1	3.8%
l	1	3.8%
m	1	3.8%
Other values (5)	5	19.2%

Space Separator

Value	Count	Frequency (%)
	121	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	26	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	26	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Uppercase Letter

Value	Count	Frequency (%)
L	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	4684	95.9%
Common	175	3.6%
Latin	27	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
나	315	6.7%
무	303	6.5%
리	137	2.9%
아	125	2.7%
스	77	1.6%
라	63	1.3%
자	59	1.3%
꽃	55	1.2%
산	55	1.2%
이	51	1.1%
Other values (525)	3444	73.5%

Latin

Value	Count	Frequency (%)
s	3	11.1%
c	3	11.1%
a	3	11.1%
t	3	11.1%
p	2	7.4%
i	2	7.4%
e	2	7.4%
r	1	3.7%
l	1	3.7%
m	1	3.7%
Other values (6)	6	22.2%

Common

Value	Count	Frequency (%)
	121	69.1%
(	26	14.9%
)	26	14.9%
-	2	1.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	4684	95.9%
ASCII	202	4.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
나	315	6.7%
무	303	6.5%
리	137	2.9%
아	125	2.7%
스	77	1.6%
라	63	1.3%
자	59	1.3%
꽃	55	1.2%
산	55	1.2%
이	51	1.1%
Other values (525)	3444	73.5%

ASCII

Value	Count	Frequency (%)
	121	59.9%
(	26	12.9%
)	26	12.9%
s	3	1.5%
c	3	1.5%
a	3	1.5%
t	3	1.5%
p	2	1.0%
i	2	1.0%
e	2	1.0%
Other values (10)	11	5.4%

학명
Text

Distinct	1060
Distinct (%)	96.9%
Missing	0
Missing (%)	0.0%
Memory size	8.7 KiB

Length

Max length	76
Median length	50
Mean length	25.78702
Min length	2

Characters and Unicode

Total characters	28211
Distinct characters	80
Distinct categories	11 ?
Distinct scripts	4 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1028 ?
Unique (%)	94.0%

Sample

1st row	Platycarya strobilacea
2nd row	Platycarya strobilacea Siebold & Zucc
3rd row	Juglans Mandshurica Maxim. Var. mandshurica for. Mandst
4th row	Pterocarya stenoptera DC.
5th row	Carya illinoensis

Value	Count	Frequency (%)
l	105	2.9%
var	83	2.3%
	55	1.5%
thunb	44	1.2%
ex	39	1.1%
prunus	38	1.1%
echeveria	36	1.0%
nakai	35	1.0%
magnolia	29	0.8%
japonica	28	0.8%
Other values (1751)	3104	86.3%

Most occurring characters

Value	Count	Frequency (%)
a	2876	10.2%
	2740	9.7%
i	2134	7.6%
e	1864	6.6%
r	1679	6.0%
s	1462	5.2%
n	1438	5.1%
o	1399	5.0%
u	1368	4.8%
l	1156	4.1%
Other values (70)	10095	35.8%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	21733	77.0%
Space Separator	2740	9.7%
Uppercase Letter	2393	8.5%
Other Punctuation	1001	3.5%
Close Punctuation	142	0.5%
Open Punctuation	140	0.5%
Other Letter	41	0.1%
Dash Punctuation	16	0.1%
Initial Punctuation	2	< 0.1%
Final Punctuation	2	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
a	2876	13.2%
i	2134	9.8%
e	1864	8.6%
r	1679	7.7%
s	1462	6.7%
n	1438	6.6%
o	1399	6.4%
u	1368	6.3%
l	1156	5.3%
c	981	4.5%
Other values (16)	5376	24.7%

Uppercase Letter

Value	Count	Frequency (%)
C	208	8.7%
L	203	8.5%
A	202	8.4%
S	189	7.9%
P	182	7.6%
M	174	7.3%
B	137	5.7%
E	123	5.1%
H	123	5.1%
T	113	4.7%
Other values (16)	739	30.9%

Other Letter

Value	Count	Frequency (%)
초	3	7.3%
기	3	7.3%
명	3	7.3%
데	3	7.3%
이	3	7.3%
타	3	7.3%
망	3	7.3%
학	3	7.3%
틀	3	7.3%
림	3	7.3%
Other values (5)	11	26.8%

Other Punctuation

Value	Count	Frequency (%)
.	737	73.6%
'	202	20.2%
&	52	5.2%
,	5	0.5%
"	4	0.4%
＆	1	0.1%

Space Separator

Value	Count	Frequency (%)
	2740	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	142	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	140	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	16	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	2	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	2	100.0%

Math Symbol

Value	Count	Frequency (%)
×	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	24126	85.5%
Common	4044	14.3%
Hangul	39	0.1%
Han	2	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
a	2876	11.9%
i	2134	8.8%
e	1864	7.7%
r	1679	7.0%
s	1462	6.1%
n	1438	6.0%
o	1399	5.8%
u	1368	5.7%
l	1156	4.8%
c	981	4.1%
Other values (42)	7769	32.2%

Common

Value	Count	Frequency (%)
	2740	67.8%
.	737	18.2%
'	202	5.0%
)	142	3.5%
(	140	3.5%
&	52	1.3%
-	16	0.4%
,	5	0.1%
"	4	0.1%
‘	2	< 0.1%
Other values (3)	4	0.1%

Hangul

Value	Count	Frequency (%)
초	3	7.7%
기	3	7.7%
명	3	7.7%
데	3	7.7%
이	3	7.7%
타	3	7.7%
망	3	7.7%
학	3	7.7%
틀	3	7.7%
림	3	7.7%
Other values (3)	9	23.1%

Han

Value	Count	Frequency (%)
殘	1	50.0%
雪	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	28164	99.8%
Hangul	39	0.1%
Punctuation	4	< 0.1%
None	2	< 0.1%
CJK	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
a	2876	10.2%
	2740	9.7%
i	2134	7.6%
e	1864	6.6%
r	1679	6.0%
s	1462	5.2%
n	1438	5.1%
o	1399	5.0%
u	1368	4.9%
l	1156	4.1%
Other values (51)	10048	35.7%

Hangul

Value	Count	Frequency (%)
초	3	7.7%
기	3	7.7%
명	3	7.7%
데	3	7.7%
이	3	7.7%
타	3	7.7%
망	3	7.7%
학	3	7.7%
틀	3	7.7%
림	3	7.7%
Other values (3)	9	23.1%

Punctuation

Value	Count	Frequency (%)
‘	2	50.0%
’	2	50.0%

None

Value	Count	Frequency (%)
＆	1	50.0%
×	1	50.0%

CJK

Value	Count	Frequency (%)
殘	1	50.0%
雪	1	50.0%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	과국명	과명	이름	학명
0	가래나무과	Juglandaceae	굴피나무	Platycarya strobilacea
1	가래나무과	Juglandaceae	굴피나무	Platycarya strobilacea Siebold & Zucc
2	가래나무과	Juglandaceae	가래나무	Juglans Mandshurica Maxim. Var. mandshurica for. Mandst
3	가래나무과	Juglandaceae	중국굴피	Pterocarya stenoptera DC.
4	가래나무과	Juglandaceae	피칸	Carya illinoensis
5	가래나무과	Juglandaceae	호두	Ferocactus acanthodes Br. ＆ R.
6	가래나무과	Juglandaceae	호두나무	Juglans sinensis
7	가지과	Solanaceae	구기자	Lycium chinense
8	가지과	Solanaceae	꽈리	Physalis wrightii Gray
9	갈매나무과	Rhamnaceae	갈매나무	Rhamnus davurica Pall.

	과국명	과명	이름	학명
1084	장미과	Prunus mune	미개홍	Mikaikou
1085	장미과	Prunus mune	화좌논	Hanazaronn
1086	장미과	Prunus mune	수심경	Suishinkyou
1087	장미과	Prunus mune	옹	Okina
1088	장미과	Prunus mune	서지수(수양)	Akebono shidare
1089	장미과	Prunus mune	문조매화	Bunchou
1090	장미과	Prunus mune	도조매화	Miyako Dori
1091	장미과	Prunus mune	금매화	Trollius ledebourii Rchb.
1092	장미과	Prunus mune	홍학매화	BeniZuru
1093	장미과	Prunus mune	춘일야홍수양	kasugano BeniShidare

Most frequently occurring

	과국명	과명	이름	학명	# duplicates
0	돌나물과	Crassulaceae	에케베리아 히아리나	Echeveria hyalina Walther	2
1	미나리아재비과	Ranunculaceae	큰꽃으아리	Clematis patens C. Morren & Decne.	2
2	보리수나무과	Elaeagnaceae	보리수나무	Elaeagnus umbellata Thunb.	2
3	선인장과	Cactaceae	무자단선	Corynopuntia invicta (Brandegee) F.M. Knuth	2
4	선인장과	Cactaceae	신천지	Gymnocalycium saglione (Cels) Britton & Rose	2
5	선인장과	Cactaceae	축옥	Echinofossulocactus multicostatus (Hildm.) Britton & Rose	2
6	용설란과	Agavaceae	아가베 레오폴디	Agave 'leopoldii'	2
7	용설란과	Agavaceae	아가베 파리	Agave parryi Engelm.	2
8	용설란과	Agavaceae	유카	Yucca gloriosa L.	2
9	용설란과	Agavaceae	희난설	Agave parviflora Torr.	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Space Separator

Other Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Uppercase Letter

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Other Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Initial Punctuation

Final Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Latin

Common

Hangul

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Punctuation

None

CJK

Missing values

Sample

Duplicate rows

Most frequently occurring