gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	515
Missing cells	251
Missing cells (%)	12.2%
Duplicate rows	3
Duplicate rows (%)	0.6%
Total size in memory	16.7 KiB
Average record size in memory	33.3 B

Variable types

Text	3
Numeric	1

Dataset

Description	국가평생학습포털 늘배움에서 사용중인 학습공통코드와 관련된 데이터로 학습공통코드, 학습공통코드명, 학습공통코드설명 등의 정보를 제공합니다.
Author	국가평생교육진흥원
URL	https://www.data.go.kr/data/15091739/fileData.do

Alerts

Dataset has 3 (0.6%) duplicate rows	Duplicates
`부모코드` has 250 (48.5%) missing values	Missing

Reproduction

Analysis started	2023-12-12 16:21:56.340189
Analysis finished	2023-12-12 16:21:57.408473
Duration	1.07 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

학습공통코드
Text

Distinct	454
Distinct (%)	88.3%
Missing	1
Missing (%)	0.2%
Memory size	4.2 KiB

Length

Max length	6
Median length	5
Mean length	2.9902724
Min length	1

Characters and Unicode

Total characters	1537
Distinct characters	37
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	429 ?
Unique (%)	83.5%

Sample

1st row	4373
2nd row	4374
3rd row	4375
4th row	4376
5th row	4377

Value	Count	Frequency (%)
10	9	1.8%
20	9	1.8%
30	8	1.6%
40	5	1.0%
50	4	0.8%
100	4	0.8%
200	4	0.8%
60	4	0.8%
80	3	0.6%
300	3	0.6%
Other values (444)	461	89.7%

Most occurring characters

Value	Count	Frequency (%)
1	267	17.4%
4	219	14.2%
2	166	10.8%
0	132	8.6%
7	109	7.1%
3	95	6.2%
8	80	5.2%
6	71	4.6%
5	65	4.2%
9	41	2.7%
Other values (27)	292	19.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	1245	81.0%
Uppercase Letter	290	18.9%
Dash Punctuation	2	0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
S	27	9.3%
A	23	7.9%
T	21	7.2%
O	19	6.6%
R	16	5.5%
K	16	5.5%
M	16	5.5%
I	15	5.2%
L	14	4.8%
N	14	4.8%
Other values (16)	109	37.6%

Decimal Number

Value	Count	Frequency (%)
1	267	21.4%
4	219	17.6%
2	166	13.3%
0	132	10.6%
7	109	8.8%
3	95	7.6%
8	80	6.4%
6	71	5.7%
5	65	5.2%
9	41	3.3%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	1247	81.1%
Latin	290	18.9%

Most frequent character per script

Latin

Value	Count	Frequency (%)
S	27	9.3%
A	23	7.9%
T	21	7.2%
O	19	6.6%
R	16	5.5%
K	16	5.5%
M	16	5.5%
I	15	5.2%
L	14	4.8%
N	14	4.8%
Other values (16)	109	37.6%

Common

Value	Count	Frequency (%)
1	267	21.4%
4	219	17.6%
2	166	13.3%
0	132	10.6%
7	109	8.7%
3	95	7.6%
8	80	6.4%
6	71	5.7%
5	65	5.2%
9	41	3.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1537	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	267	17.4%
4	219	14.2%
2	166	10.8%
0	132	8.6%
7	109	7.1%
3	95	6.2%
8	80	5.2%
6	71	4.6%
5	65	4.2%
9	41	2.7%
Other values (27)	292	19.0%

학습공통코드명
Text

Distinct	478
Distinct (%)	92.8%
Missing	0
Missing (%)	0.0%
Memory size	4.2 KiB

Length

Max length	28
Median length	27
Mean length	5.1495146
Min length	2

Characters and Unicode

Total characters	2652
Distinct characters	287
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	462 ?
Unique (%)	89.7%

Sample

1st row	옥천군
2nd row	영동군
3rd row	진천군
4th row	괴산군
5th row	음성군

Value	Count	Frequency (%)
프로그램	19	3.2%
연령	9	1.5%
관련	7	1.2%
시설	7	1.2%
동구	6	1.0%
및	6	1.0%
서구	5	0.8%
중구	5	0.8%
제주도	4	0.7%
남구	4	0.7%
Other values (488)	517	87.8%

Most occurring characters

Value	Count	Frequency (%)
a	155	5.8%
i	106	4.0%
시	105	4.0%
n	102	3.8%
군	83	3.1%
e	76	2.9%
	74	2.8%
구	73	2.8%
r	59	2.2%
s	52	2.0%
Other values (277)	1767	66.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1388	52.3%
Lowercase Letter	905	34.1%
Uppercase Letter	207	7.8%
Space Separator	74	2.8%
Dash Punctuation	18	0.7%
Other Punctuation	18	0.7%
Decimal Number	14	0.5%
Open Punctuation	13	0.5%
Close Punctuation	13	0.5%
Math Symbol	2	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
시	105	7.6%
군	83	6.0%
구	73	5.3%
주	32	2.3%
성	26	1.9%
천	24	1.7%
양	22	1.6%
산	21	1.5%
프	21	1.5%
로	21	1.5%
Other values (211)	960	69.2%

Uppercase Letter

Value	Count	Frequency (%)
S	21	10.1%
B	19	9.2%
T	17	8.2%
A	14	6.8%
N	12	5.8%
C	12	5.8%
G	11	5.3%
O	9	4.3%
K	9	4.3%
Y	9	4.3%
Other values (16)	74	35.7%

Lowercase Letter

Value	Count	Frequency (%)
a	155	17.1%
i	106	11.7%
n	102	11.3%
e	76	8.4%
r	59	6.5%
s	52	5.7%
o	49	5.4%
l	42	4.6%
h	38	4.2%
u	37	4.1%
Other values (15)	189	20.9%

Decimal Number

Value	Count	Frequency (%)
0	6	42.9%
4	2	14.3%
8	1	7.1%
5	1	7.1%
3	1	7.1%
2	1	7.1%
6	1	7.1%
1	1	7.1%

Other Punctuation

Value	Count	Frequency (%)
,	12	66.7%
/	6	33.3%

Space Separator

Value	Count	Frequency (%)
	74	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	18	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	13	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	13	100.0%

Math Symbol

Value	Count	Frequency (%)
~	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1388	52.3%
Latin	1112	41.9%
Common	152	5.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
시	105	7.6%
군	83	6.0%
구	73	5.3%
주	32	2.3%
성	26	1.9%
천	24	1.7%
양	22	1.6%
산	21	1.5%
프	21	1.5%
로	21	1.5%
Other values (211)	960	69.2%

Latin

Value	Count	Frequency (%)
a	155	13.9%
i	106	9.5%
n	102	9.2%
e	76	6.8%
r	59	5.3%
s	52	4.7%
o	49	4.4%
l	42	3.8%
h	38	3.4%
u	37	3.3%
Other values (41)	396	35.6%

Common

Value	Count	Frequency (%)
	74	48.7%
-	18	11.8%
(	13	8.6%
)	13	8.6%
,	12	7.9%
/	6	3.9%
0	6	3.9%
4	2	1.3%
~	2	1.3%
8	1	0.7%
Other values (5)	5	3.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1388	52.3%
ASCII	1264	47.7%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
a	155	12.3%
i	106	8.4%
n	102	8.1%
e	76	6.0%
	74	5.9%
r	59	4.7%
s	52	4.1%
o	49	3.9%
l	42	3.3%
h	38	3.0%
Other values (56)	511	40.4%

Hangul

Value	Count	Frequency (%)
시	105	7.6%
군	83	6.0%
구	73	5.3%
주	32	2.3%
성	26	1.9%
천	24	1.7%
양	22	1.6%
산	21	1.5%
프	21	1.5%
로	21	1.5%
Other values (211)	960	69.2%

학습공통코드설명
Text

Distinct	507
Distinct (%)	98.4%
Missing	0
Missing (%)	0.0%
Memory size	4.2 KiB

Length

Max length	28
Median length	24
Mean length	7.4058252
Min length	2

Characters and Unicode

Total characters	3814
Distinct characters	290
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	499 ?
Unique (%)	96.9%

Sample

1st row	충청북도 옥천군
2nd row	충청북도 영동군
3rd row	충청북도 진천군
4th row	충청북도 괴산군
5th row	충청북도 음성군

Value	Count	Frequency (%)
경기도	36	4.4%
서울특별시	25	3.1%
경상북도	23	2.8%
전라남도	22	2.7%
프로그램	19	2.3%
강원도	18	2.2%
경상남도	17	2.1%
부산광역시	15	1.8%
전라북도	14	1.7%
충청남도	12	1.5%
Other values (513)	614	75.3%

Most occurring characters

Value	Count	Frequency (%)
	300	7.9%
시	177	4.6%
도	166	4.4%
a	155	4.1%
i	106	2.8%
n	102	2.7%
경	90	2.4%
군	83	2.2%
구	81	2.1%
e	76	2.0%
Other values (280)	2478	65.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2302	60.4%
Lowercase Letter	905	23.7%
Space Separator	300	7.9%
Uppercase Letter	207	5.4%
Decimal Number	36	0.9%
Dash Punctuation	18	0.5%
Other Punctuation	18	0.5%
Close Punctuation	13	0.3%
Open Punctuation	13	0.3%
Math Symbol	2	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
시	177	7.7%
도	166	7.2%
경	90	3.9%
군	83	3.6%
구	81	3.5%
남	67	2.9%
광	59	2.6%
북	57	2.5%
역	48	2.1%
전	47	2.0%
Other values (212)	1427	62.0%

Uppercase Letter

Value	Count	Frequency (%)
S	21	10.1%
B	19	9.2%
T	17	8.2%
A	14	6.8%
N	12	5.8%
C	12	5.8%
G	11	5.3%
K	9	4.3%
Y	9	4.3%
M	9	4.3%
Other values (16)	74	35.7%

Lowercase Letter

Value	Count	Frequency (%)
a	155	17.1%
i	106	11.7%
n	102	11.3%
e	76	8.4%
r	59	6.5%
s	52	5.7%
o	49	5.4%
l	42	4.6%
h	38	4.2%
u	37	4.1%
Other values (15)	189	20.9%

Decimal Number

Value	Count	Frequency (%)
0	15	41.7%
5	6	16.7%
4	3	8.3%
6	2	5.6%
3	2	5.6%
1	2	5.6%
2	2	5.6%
8	2	5.6%
9	1	2.8%
7	1	2.8%

Other Punctuation

Value	Count	Frequency (%)
,	12	66.7%
/	6	33.3%

Space Separator

Value	Count	Frequency (%)
	300	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	18	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	13	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	13	100.0%

Math Symbol

Value	Count	Frequency (%)
~	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2302	60.4%
Latin	1112	29.2%
Common	400	10.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
시	177	7.7%
도	166	7.2%
경	90	3.9%
군	83	3.6%
구	81	3.5%
남	67	2.9%
광	59	2.6%
북	57	2.5%
역	48	2.1%
전	47	2.0%
Other values (212)	1427	62.0%

Latin

Value	Count	Frequency (%)
a	155	13.9%
i	106	9.5%
n	102	9.2%
e	76	6.8%
r	59	5.3%
s	52	4.7%
o	49	4.4%
l	42	3.8%
h	38	3.4%
u	37	3.3%
Other values (41)	396	35.6%

Common

Value	Count	Frequency (%)
	300	75.0%
-	18	4.5%
0	15	3.8%
)	13	3.2%
(	13	3.2%
,	12	3.0%
5	6	1.5%
/	6	1.5%
4	3	0.8%
6	2	0.5%
Other values (7)	12	3.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2302	60.4%
ASCII	1512	39.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	300	19.8%
a	155	10.3%
i	106	7.0%
n	102	6.7%
e	76	5.0%
r	59	3.9%
s	52	3.4%
o	49	3.2%
l	42	2.8%
h	38	2.5%
Other values (58)	533	35.3%

Hangul

Value	Count	Frequency (%)
시	177	7.7%
도	166	7.2%
경	90	3.9%
군	83	3.6%
구	81	3.5%
남	67	2.9%
광	59	2.6%
북	57	2.5%
역	48	2.1%
전	47	2.0%
Other values (212)	1427	62.0%

부모코드
Real number (ℝ)

MISSING

Distinct	22
Distinct (%)	8.3%
Missing	250
Missing (%)	48.5%
Infinite	0
Infinite (%)	0.0%
Mean	34.811321

Minimum	1
Maximum	60
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	4.7 KiB

Quantile statistics

Minimum	1
5-th percentile	2
Q1	27
median	41
Q3	46
95-th percentile	48
Maximum	60
Range	59
Interquartile range (IQR)	19

Descriptive statistics

Standard deviation	14.527999
Coefficient of variation (CV)	0.41733547
Kurtosis	-0.13894509
Mean	34.811321
Median Absolute Deviation (MAD)	6
Skewness	-1.0087721
Sum	9225
Variance	211.06275
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=22)

Value	Count	Frequency (%)
41	36	7.0%
11	25	4.9%
47	23	4.5%
46	22	4.3%
42	18	3.5%
48	17	3.3%
26	15	2.9%
45	14	2.7%
44	11	2.1%
2	11	2.1%
Other values (12)	73	14.2%
(Missing)	250	48.5%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	6	1.2%
2	11	2.1%
10	3	0.6%
11	25	4.9%
20	3	0.6%
26	15	2.9%
27	8	1.6%
28	10	1.9%
29	5	1.0%
30	9	1.7%

Value	Count	Frequency (%)
60	3	0.6%
50	5	1.0%
48	17	3.3%
47	23	4.5%
46	22	4.3%
45	14	2.7%
44	11	2.1%
43	11	2.1%
42	18	3.5%
41	36	7.0%

부모코드

부모코드

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	학습공통코드	학습공통코드명	학습공통코드설명	부모코드
0	4373	옥천군	충청북도 옥천군	43
1	4374	영동군	충청북도 영동군	43
2	4375	진천군	충청북도 진천군	43
3	4376	괴산군	충청북도 괴산군	43
4	4377	음성군	충청북도 음성군	43
5	4380	단양군	충청남도 단양군	43
6	4413	천안시	충청남도 천안시	44
7	4415	공주시	충청남도 공주시	44
8	4418	보령시	충청남도 보령시	44
9	4420	아산시	충청남도 아산시	44

	학습공통코드	학습공통코드명	학습공통코드설명	부모코드
505	36	세종	시도	<NA>
506	114	외국어 자격증	외국어 자격증	<NA>
507	115	직무능력향상교육	직무능력향상교육	<NA>
508	116	4차산업혁명	4차산업혁명	<NA>
509	117	컴퓨터	컴퓨터	<NA>
510	118	종교교육	종교교육	<NA>
511	119	가정생활	가정생활	<NA>
512	120	미술	미술	<NA>
513	121	지도자	지도자	<NA>
514	122	환경생태	환경생태	<NA>

Most frequently occurring

	학습공통코드	학습공통코드명	학습공통코드설명	부모코드	# duplicates
0	10	직영	직영	<NA>	2
1	20	위탁	위탁	<NA>	2
2	30	병행	병행	<NA>	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Dash Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Dash Punctuation

Close Punctuation

Open Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Interactions

Missing values

Sample

Duplicate rows

Most frequently occurring