gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	10000
Missing cells	2
Missing cells (%)	< 0.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	634.8 KiB
Average record size in memory	65.0 B

Variable types

Numeric	1
Text	6

Dataset

Description	한국전력 전자도서관 보유중인 도서 및 자료 정보 데이터 입니다. 해당 리스트의 자료는 외부 일반인에게도 제공중입니다.(도서명, 저자명, 발행자, 발행년, 분류기호)
URL	https://www.data.go.kr/data/15069176/fileData.do

Alerts

`연번` has unique values	Unique
`등록번호` has unique values	Unique

Reproduction

Analysis started	2023-12-12 01:15:57.215001
Analysis finished	2023-12-12 01:16:00.981566
Duration	3.77 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

연번
Real number (ℝ)

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	26801.778

Minimum	14
Maximum	53481
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	14
5-th percentile	2902.7
Q1	13711.75
median	26605
Q3	39904.5
95-th percentile	50867.25
Maximum	53481
Range	53467
Interquartile range (IQR)	26192.75

Descriptive statistics

Standard deviation	15265.135
Coefficient of variation (CV)	0.56955682
Kurtosis	-1.1737292
Mean	26801.778
Median Absolute Deviation (MAD)	13099
Skewness	0.0099416884
Sum	2.6801778 × 10⁸
Variance	2.3302436 × 10⁸
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
634	1	< 0.1%
12120	1	< 0.1%
13339	1	< 0.1%
22062	1	< 0.1%
33941	1	< 0.1%
48031	1	< 0.1%
16738	1	< 0.1%
13745	1	< 0.1%
6019	1	< 0.1%
22363	1	< 0.1%
Other values (9990)	9990	99.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
14	1	< 0.1%
34	1	< 0.1%
36	1	< 0.1%
41	1	< 0.1%
43	1	< 0.1%
44	1	< 0.1%
48	1	< 0.1%
68	1	< 0.1%
81	1	< 0.1%
85	1	< 0.1%

Value	Count	Frequency (%)
53481	1	< 0.1%
53476	1	< 0.1%
53464	1	< 0.1%
53458	1	< 0.1%
53455	1	< 0.1%
53447	1	< 0.1%
53444	1	< 0.1%
53442	1	< 0.1%
53429	1	< 0.1%
53428	1	< 0.1%

등록번호
Text

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	11
Median length	11
Mean length	11
Min length	11

Characters and Unicode

Total characters	110000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10000 ?
Unique (%)	100.0%

Sample

1st row	AA199101833
2nd row	AA201110376
3rd row	AA199510840
4th row	AA199510711
5th row	AA199510951

Value	Count	Frequency (%)
aa199101833	1	< 0.1%
aa200110197	1	< 0.1%
aa201610856	1	< 0.1%
aa199130399	1	< 0.1%
aa200010580	1	< 0.1%
aa200810789	1	< 0.1%
aa201410612	1	< 0.1%
aa201912037	1	< 0.1%
aa200410259	1	< 0.1%
aa199910389	1	< 0.1%
Other values (9990)	9990	99.9%

Most occurring characters

Value	Count	Frequency (%)
0	22268	20.2%
A	20000	18.2%
1	19919	18.1%
2	14451	13.1%
9	8076	7.3%
6	4738	4.3%
4	4654	4.2%
5	4231	3.8%
3	4177	3.8%
7	3910	3.6%
Other values (2)	3576	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	89999	81.8%
Uppercase Letter	20001	18.2%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	22268	24.7%
1	19919	22.1%
2	14451	16.1%
9	8076	9.0%
6	4738	5.3%
4	4654	5.2%
5	4231	4.7%
3	4177	4.6%
7	3910	4.3%
8	3575	4.0%

Uppercase Letter

Value	Count	Frequency (%)
A	20000	> 99.9%
O	1	< 0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	89999	81.8%
Latin	20001	18.2%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	22268	24.7%
1	19919	22.1%
2	14451	16.1%
9	8076	9.0%
6	4738	5.3%
4	4654	5.2%
5	4231	4.7%
3	4177	4.6%
7	3910	4.3%
8	3575	4.0%

Latin

Value	Count	Frequency (%)
A	20000	> 99.9%
O	1	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	110000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	22268	20.2%
A	20000	18.2%
1	19919	18.1%
2	14451	13.1%
9	8076	7.3%
6	4738	4.3%
4	4654	4.2%
5	4231	3.8%
3	4177	3.8%
7	3910	3.6%
Other values (2)	3576	3.3%

청구기호
Text

Distinct	9252
Distinct (%)	92.5%
Missing	2
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	27
Median length	24
Mean length	12.14823
Min length	6

Characters and Unicode

Total characters	121458
Distinct characters	582
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	8831 ?
Unique (%)	88.3%

Sample

1st row	31:62 U58i
2nd row	82-3(08) 레31ㅅ V.246
3rd row	340.13(51) 김14ㄱ
4th row	347.1(076) 홍53ㅁ
5th row	802.0 배79ㅇ

Value	Count	Frequency (%)
82-31	441	2.0%
82-4	438	2.0%
82-34	267	1.2%
62	266	1.2%
c.2	232	1.1%
82-311.6	188	0.9%
171	188	0.9%
658	178	0.8%
82-3(08	171	0.8%
082.2	144	0.7%
Other values (8778)	19541	88.6%

Most occurring characters

Value	Count	Frequency (%)
	12056	9.9%
1	11444	9.4%
3	10294	8.5%
2	10004	8.2%
8	8189	6.7%
.	7912	6.5%
6	7523	6.2%
5	6523	5.4%
9	6218	5.1%
0	4853	4.0%
Other values (572)	36442	30.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	73608	60.6%
Other Letter	17759	14.6%
Space Separator	12056	9.9%
Other Punctuation	8494	7.0%
Dash Punctuation	2471	2.0%
Lowercase Letter	2059	1.7%
Open Punctuation	1771	1.5%
Close Punctuation	1766	1.5%
Uppercase Letter	1385	1.1%
Math Symbol	89	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
ㅇ	1581	8.9%
ㅅ	1323	7.4%
ㄱ	987	5.6%
ㅈ	984	5.5%
김	802	4.5%
ㅎ	765	4.3%
이	697	3.9%
ㄷ	539	3.0%
ㄴ	530	3.0%
ㅂ	525	3.0%
Other values (500)	9026	50.8%

Lowercase Letter

Value	Count	Frequency (%)
v	796	38.7%
c	319	15.5%
e	135	6.6%
p	112	5.4%
w	78	3.8%
i	67	3.3%
m	61	3.0%
t	60	2.9%
s	57	2.8%
a	54	2.6%
Other values (15)	320	15.5%

Uppercase Letter

Value	Count	Frequency (%)
E	173	12.5%
V	126	9.1%
C	119	8.6%
R	111	8.0%
T	93	6.7%
I	91	6.6%
W	86	6.2%
M	69	5.0%
O	62	4.5%
S	56	4.0%
Other values (14)	399	28.8%

Decimal Number

Value	Count	Frequency (%)
1	11444	15.5%
3	10294	14.0%
2	10004	13.6%
8	8189	11.1%
6	7523	10.2%
5	6523	8.9%
9	6218	8.4%
0	4853	6.6%
7	4294	5.8%
4	4266	5.8%

Other Punctuation

Value	Count	Frequency (%)
.	7912	93.1%
:	549	6.5%
/	16	0.2%
'	11	0.1%
,	4	< 0.1%
;	1	< 0.1%
：	1	< 0.1%

Math Symbol

Value	Count	Frequency (%)
=	58	65.2%
+	31	34.8%

Space Separator

Value	Count	Frequency (%)
	12056	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2471	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1771	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1766	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	100255	82.5%
Hangul	17759	14.6%
Latin	3444	2.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
ㅇ	1581	8.9%
ㅅ	1323	7.4%
ㄱ	987	5.6%
ㅈ	984	5.5%
김	802	4.5%
ㅎ	765	4.3%
이	697	3.9%
ㄷ	539	3.0%
ㄴ	530	3.0%
ㅂ	525	3.0%
Other values (500)	9026	50.8%

Latin

Value	Count	Frequency (%)
v	796	23.1%
c	319	9.3%
E	173	5.0%
e	135	3.9%
V	126	3.7%
C	119	3.5%
p	112	3.3%
R	111	3.2%
T	93	2.7%
I	91	2.6%
Other values (39)	1369	39.8%

Common

Value	Count	Frequency (%)
	12056	12.0%
1	11444	11.4%
3	10294	10.3%
2	10004	10.0%
8	8189	8.2%
.	7912	7.9%
6	7523	7.5%
5	6523	6.5%
9	6218	6.2%
0	4853	4.8%
Other values (13)	15239	15.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	103698	85.4%
Hangul	8950	7.4%
Compat Jamo	8809	7.3%
None	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	12056	11.6%
1	11444	11.0%
3	10294	9.9%
2	10004	9.6%
8	8189	7.9%
.	7912	7.6%
6	7523	7.3%
5	6523	6.3%
9	6218	6.0%
0	4853	4.7%
Other values (61)	18682	18.0%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	1581	17.9%
ㅅ	1323	15.0%
ㄱ	987	11.2%
ㅈ	984	11.2%
ㅎ	765	8.7%
ㄷ	539	6.1%
ㄴ	530	6.0%
ㅂ	525	6.0%
ㅁ	523	5.9%
ㅊ	266	3.0%
Other values (9)	786	8.9%

Hangul

Value	Count	Frequency (%)
김	802	9.0%
이	697	7.8%
한	365	4.1%
박	313	3.5%
정	222	2.5%
조	186	2.1%
최	169	1.9%
오	149	1.7%
전	134	1.5%
아	114	1.3%
Other values (481)	5799	64.8%

None

Value	Count	Frequency (%)
：	1	100.0%

서명
Text

Distinct	9874
Distinct (%)	98.7%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	171
Median length	131
Mean length	26.8962
Min length	1

Characters and Unicode

Total characters	268962
Distinct characters	2270
Distinct categories	18 ?
Distinct scripts	6 ?
Distinct blocks	12 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9761 ?
Unique (%)	97.6%

Sample

1st row	Industry and Development Global Report 1988/89
2nd row	사랑할 때와 죽을 때. V.246 ; 세계문학전집 ; 246
3rd row	중국 외자기업 세법편람
4th row	民法 및 民事特別法
5th row	영어회화 삼국지1

Value	Count	Frequency (%)
	5621	9.2%
1	408	0.7%
2	390	0.6%
of	338	0.6%
and	298	0.5%
위한	283	0.5%
the	250	0.4%
이야기	224	0.4%
3	200	0.3%
for	149	0.2%
Other values (23882)	52894	86.6%

Most occurring characters

Value	Count	Frequency (%)
	53979	20.1%
e	5172	1.9%
n	4005	1.5%
:	4000	1.5%
의	3970	1.5%
o	3851	1.4%
i	3843	1.4%
a	3479	1.3%
t	3450	1.3%
r	3125	1.2%
Other values (2260)	180088	67.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	132688	49.3%
Space Separator	53979	20.1%
Lowercase Letter	43899	16.3%
Uppercase Letter	12688	4.7%
Decimal Number	12033	4.5%
Other Punctuation	10063	3.7%
Close Punctuation	1250	0.5%
Open Punctuation	1245	0.5%
Dash Punctuation	646	0.2%
Math Symbol	350	0.1%
Other values (8)	121	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	3970	3.0%
이	2782	2.1%
는	2478	1.9%
기	2243	1.7%
한	1883	1.4%
지	1844	1.4%
리	1796	1.4%
가	1752	1.3%
사	1734	1.3%
다	1356	1.0%
Other values (2140)	110850	83.5%

Lowercase Letter

Value	Count	Frequency (%)
e	5172	11.8%
n	4005	9.1%
o	3851	8.8%
i	3843	8.8%
a	3479	7.9%
t	3450	7.9%
r	3125	7.1%
s	2744	6.3%
l	2004	4.6%
c	1799	4.1%
Other values (16)	10427	23.8%

Uppercase Letter

Value	Count	Frequency (%)
E	1223	9.6%
S	1111	8.8%
T	948	7.5%
C	935	7.4%
A	865	6.8%
P	844	6.7%
I	837	6.6%
R	704	5.5%
O	581	4.6%
M	533	4.2%
Other values (16)	4107	32.4%

Other Punctuation

Value	Count	Frequency (%)
:	4000	39.7%
;	2056	20.4%
.	1954	19.4%
,	980	9.7%
'	203	2.0%
!	176	1.7%
．	113	1.1%
；	112	1.1%
·	109	1.1%
：	93	0.9%
Other values (12)	267	2.7%

Decimal Number

Value	Count	Frequency (%)
1	2791	23.2%
2	2194	18.2%
0	2115	17.6%
3	1014	8.4%
9	975	8.1%
5	708	5.9%
4	672	5.6%
8	529	4.4%
6	519	4.3%
7	516	4.3%

Math Symbol

Value	Count	Frequency (%)
=	282	80.6%
~	35	10.0%
+	26	7.4%
>	2	0.6%
<	2	0.6%
∼	1	0.3%
\|	1	0.3%
＋	1	0.3%

Close Punctuation

Value	Count	Frequency (%)
)	1218	97.4%
]	20	1.6%
』	5	0.4%
}	4	0.3%
」	1	0.1%
〉	1	0.1%
》	1	0.1%

Open Punctuation

Value	Count	Frequency (%)
(	1217	97.8%
[	20	1.6%
『	5	0.4%
「	1	0.1%
〈	1	0.1%
《	1	0.1%

Letter Number

Value	Count	Frequency (%)
Ⅱ	36	45.0%
Ⅰ	22	27.5%
Ⅲ	11	13.8%
Ⅳ	9	11.2%
Ⅴ	2	2.5%

Dash Punctuation

Value	Count	Frequency (%)
-	522	80.8%
－	124	19.2%

Space Separator

Value	Count	Frequency (%)
	53979	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	13	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	12	100.0%

Currency Symbol

Value	Count	Frequency (%)
$	11	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	2	100.0%

Modifier Symbol

Value	Count	Frequency (%)
^	1	100.0%

Other Symbol

Value	Count	Frequency (%)
ⓔ	1	100.0%

Other Number

Value	Count	Frequency (%)
₂	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	123199	45.8%
Common	79607	29.6%
Latin	56667	21.1%
Han	8472	3.1%
Katakana	650	0.2%
Hiragana	367	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	3970	3.2%
이	2782	2.3%
는	2478	2.0%
기	2243	1.8%
한	1883	1.5%
지	1844	1.5%
리	1796	1.5%
가	1752	1.4%
사	1734	1.4%
다	1356	1.1%
Other values (1197)	101361	82.3%

Han

Value	Count	Frequency (%)
電	236	2.8%
業	181	2.1%
國	156	1.8%
法	145	1.7%
氣	138	1.6%
事	131	1.5%
計	125	1.5%
學	116	1.4%
韓	100	1.2%
經	94	1.1%
Other values (821)	7050	83.2%

Katakana

Value	Count	Frequency (%)
ル	43	6.6%
ス	39	6.0%
シ	39	6.0%
ン	34	5.2%
ネ	27	4.2%
リ	26	4.0%
エ	25	3.8%
テ	25	3.8%
ク	24	3.7%
ト	23	3.5%
Other values (55)	345	53.1%

Common

Value	Count	Frequency (%)
	53979	67.8%
:	4000	5.0%
1	2791	3.5%
2	2194	2.8%
0	2115	2.7%
;	2056	2.6%
.	1954	2.5%
)	1218	1.5%
(	1217	1.5%
3	1014	1.3%
Other values (53)	7069	8.9%

Latin

Value	Count	Frequency (%)
e	5172	9.1%
n	4005	7.1%
o	3851	6.8%
i	3843	6.8%
a	3479	6.1%
t	3450	6.1%
r	3125	5.5%
s	2744	4.8%
l	2004	3.5%
c	1799	3.2%
Other values (47)	23195	40.9%

Hiragana

Value	Count	Frequency (%)
の	133	36.2%
と	40	10.9%
る	16	4.4%
し	16	4.4%
な	11	3.0%
に	10	2.7%
お	9	2.5%
か	9	2.5%
は	8	2.2%
そ	8	2.2%
Other values (37)	107	29.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	135515	50.4%
Hangul	123174	45.8%
CJK	8260	3.1%
None	652	0.2%
Katakana	650	0.2%
Hiragana	367	0.1%
CJK Compat Ideographs	212	0.1%
Number Forms	80	< 0.1%
Punctuation	25	< 0.1%
Compat Jamo	25	< 0.1%
Other values (2)	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	53979	39.8%
e	5172	3.8%
n	4005	3.0%
:	4000	3.0%
o	3851	2.8%
i	3843	2.8%
a	3479	2.6%
t	3450	2.5%
r	3125	2.3%
1	2791	2.1%
Other values (79)	47820	35.3%

Hangul

Value	Count	Frequency (%)
의	3970	3.2%
이	2782	2.3%
는	2478	2.0%
기	2243	1.8%
한	1883	1.5%
지	1844	1.5%
리	1796	1.5%
가	1752	1.4%
사	1734	1.4%
다	1356	1.1%
Other values (1188)	101336	82.3%

CJK

Value	Count	Frequency (%)
電	236	2.9%
業	181	2.2%
國	156	1.9%
法	145	1.8%
氣	138	1.7%
事	131	1.6%
計	125	1.5%
學	116	1.4%
韓	100	1.2%
經	94	1.1%
Other values (784)	6838	82.8%

Hiragana

Value	Count	Frequency (%)
の	133	36.2%
と	40	10.9%
る	16	4.4%
し	16	4.4%
な	11	3.0%
に	10	2.7%
お	9	2.5%
か	9	2.5%
は	8	2.2%
そ	8	2.2%
Other values (37)	107	29.2%

None

Value	Count	Frequency (%)
－	124	19.0%
．	113	17.3%
；	112	17.2%
·	109	16.7%
：	93	14.3%
，	41	6.3%
＇	13	2.0%
＆	13	2.0%
／	9	1.4%
『	5	0.8%
Other values (12)	20	3.1%

CJK Compat Ideographs

Value	Count	Frequency (%)
年	50	23.6%
金	28	13.2%
理	19	9.0%
力	18	8.5%
論	14	6.6%
勞	11	5.2%
利	8	3.8%
令	5	2.4%
流	5	2.4%
率	5	2.4%
Other values (27)	49	23.1%

Katakana

Value	Count	Frequency (%)
ル	43	6.6%
ス	39	6.0%
シ	39	6.0%
ン	34	5.2%
ネ	27	4.2%
リ	26	4.0%
エ	25	3.8%
テ	25	3.8%
ク	24	3.7%
ト	23	3.5%
Other values (55)	345	53.1%

Number Forms

Value	Count	Frequency (%)
Ⅱ	36	45.0%
Ⅰ	22	27.5%
Ⅲ	11	13.8%
Ⅳ	9	11.2%
Ⅴ	2	2.5%

Punctuation

Value	Count	Frequency (%)
’	13	52.0%
‘	12	48.0%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	9	36.0%
ㄱ	6	24.0%
ㅅ	2	8.0%
ㅎ	2	8.0%
ㅈ	2	8.0%
ㄷ	1	4.0%
ㄴ	1	4.0%
ㅇ	1	4.0%
ㄹ	1	4.0%

Math Operators

Value	Count	Frequency (%)
∼	1	100.0%

Enclosed Alphanum

Value	Count	Frequency (%)
ⓔ	1	100.0%

저자
Text

Distinct	7940
Distinct (%)	79.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	94
Median length	70
Mean length	11.5517
Min length	2

Characters and Unicode

Total characters	115517
Distinct characters	1703
Distinct categories	12 ?
Distinct scripts	6 ?
Distinct blocks	10 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	7057 ?
Unique (%)	70.6%

Sample

1st row	United Nations Industrial Development Organization
2nd row	에리히 마리아,레마르크 ; 장희창
3rd row	김경직
4th row	洪性徹
5th row	배진용

Value	Count	Frequency (%)
	4040	13.4%
지음	3459	11.4%
옮김	1253	4.1%
그림	241	0.8%
institute	226	0.7%
research	212	0.7%
electric	209	0.7%
power	207	0.7%
외	189	0.6%
글	159	0.5%
Other values (11523)	20044	66.3%

Most occurring characters

Value	Count	Frequency (%)
	21478	18.6%
;	4112	3.6%
지	4059	3.5%
음	3672	3.2%
김	2731	2.4%
e	2086	1.8%
이	2043	1.8%
t	1444	1.3%
r	1413	1.2%
i	1297	1.1%
Other values (1693)	71182	61.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67182	58.2%
Space Separator	21478	18.6%
Lowercase Letter	15113	13.1%
Other Punctuation	5733	5.0%
Uppercase Letter	5310	4.6%
Open Punctuation	278	0.2%
Close Punctuation	277	0.2%
Dash Punctuation	76	0.1%
Decimal Number	51	< 0.1%
Math Symbol	17	< 0.1%
Other values (2)	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
지	4059	6.0%
음	3672	5.5%
김	2731	4.1%
이	2043	3.0%
옮	1292	1.9%
스	1124	1.7%
정	939	1.4%
리	815	1.2%
영	767	1.1%
박	608	0.9%
Other values (1607)	49132	73.1%

Lowercase Letter

Value	Count	Frequency (%)
e	2086	13.8%
t	1444	9.6%
r	1413	9.3%
i	1297	8.6%
n	1265	8.4%
a	1097	7.3%
o	1043	6.9%
c	953	6.3%
s	867	5.7%
l	728	4.8%
Other values (16)	2920	19.3%

Uppercase Letter

Value	Count	Frequency (%)
E	668	12.6%
I	539	10.2%
R	514	9.7%
A	415	7.8%
P	398	7.5%
S	292	5.5%
C	287	5.4%
D	209	3.9%
M	203	3.8%
O	189	3.6%
Other values (16)	1596	30.1%

Other Punctuation

Value	Count	Frequency (%)
;	4112	71.7%
,	768	13.4%
.	635	11.1%
·	118	2.1%
/	45	0.8%
&	23	0.4%
．	10	0.2%
'	9	0.2%
，	8	0.1%
"	3	0.1%
Other values (2)	2	< 0.1%

Decimal Number

Value	Count	Frequency (%)
0	11	21.6%
1	10	19.6%
2	8	15.7%
6	7	13.7%
3	6	11.8%
5	5	9.8%
4	1	2.0%
9	1	2.0%
7	1	2.0%
8	1	2.0%

Math Symbol

Value	Count	Frequency (%)
>	8	47.1%
<	8	47.1%
\|	1	5.9%

Close Punctuation

Value	Count	Frequency (%)
]	217	78.3%
)	60	21.7%

Open Punctuation

Value	Count	Frequency (%)
[	217	78.1%
(	61	21.9%

Dash Punctuation

Value	Count	Frequency (%)
－	38	50.0%
-	38	50.0%

Space Separator

Value	Count	Frequency (%)
	21478	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅲ	1	100.0%

Other Symbol

Value	Count	Frequency (%)
ⓔ	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	61813	53.5%
Common	27911	24.2%
Latin	20424	17.7%
Han	5099	4.4%
Katakana	251	0.2%
Hiragana	19	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
지	4059	6.6%
음	3672	5.9%
김	2731	4.4%
이	2043	3.3%
옮	1292	2.1%
스	1124	1.8%
정	939	1.5%
리	815	1.3%
영	767	1.2%
박	608	1.0%
Other values (822)	43763	70.8%

Han

Value	Count	Frequency (%)
會	234	4.6%
電	128	2.5%
韓	116	2.3%
金	99	1.9%
國	95	1.9%
李	80	1.6%
協	79	1.5%
氣	76	1.5%
部	72	1.4%
大	68	1.3%
Other values (717)	4052	79.5%

Latin

Value	Count	Frequency (%)
e	2086	10.2%
t	1444	7.1%
r	1413	6.9%
i	1297	6.4%
n	1265	6.2%
a	1097	5.4%
o	1043	5.1%
c	953	4.7%
s	867	4.2%
l	728	3.6%
Other values (43)	8231	40.3%

Katakana

Value	Count	Frequency (%)
ル	31	12.4%
ネ	28	11.2%
エ	26	10.4%
ギ	26	10.4%
テ	18	7.2%
ス	15	6.0%
ク	12	4.8%
ム	11	4.4%
シ	10	4.0%
ノ	9	3.6%
Other values (33)	65	25.9%

Common

Value	Count	Frequency (%)
	21478	77.0%
;	4112	14.7%
,	768	2.8%
.	635	2.3%
]	217	0.8%
[	217	0.8%
·	118	0.4%
(	61	0.2%
)	60	0.2%
/	45	0.2%
Other values (23)	200	0.7%

Hiragana

Value	Count	Frequency (%)
と	4	21.1%
お	2	10.5%
く	1	5.3%
に	1	5.3%
の	1	5.3%
い	1	5.3%
し	1	5.3%
さ	1	5.3%
や	1	5.3%
ま	1	5.3%
Other values (5)	5	26.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	61812	53.5%
ASCII	48159	41.7%
CJK	4914	4.3%
Katakana	251	0.2%
CJK Compat Ideographs	185	0.2%
None	174	0.2%
Hiragana	19	< 0.1%
Number Forms	1	< 0.1%
Compat Jamo	1	< 0.1%
Enclosed Alphanum	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	21478	44.6%
;	4112	8.5%
e	2086	4.3%
t	1444	3.0%
r	1413	2.9%
i	1297	2.7%
n	1265	2.6%
a	1097	2.3%
o	1043	2.2%
c	953	2.0%
Other values (70)	11971	24.9%

Hangul

Value	Count	Frequency (%)
지	4059	6.6%
음	3672	5.9%
김	2731	4.4%
이	2043	3.3%
옮	1292	2.1%
스	1124	1.8%
정	939	1.5%
리	815	1.3%
영	767	1.2%
박	608	1.0%
Other values (821)	43762	70.8%

CJK

Value	Count	Frequency (%)
會	234	4.8%
電	128	2.6%
韓	116	2.4%
金	99	2.0%
國	95	1.9%
協	79	1.6%
氣	76	1.5%
部	72	1.5%
大	68	1.4%
本	68	1.4%
Other values (684)	3879	78.9%

None

Value	Count	Frequency (%)
·	118	67.8%
－	38	21.8%
．	10	5.7%
，	8	4.6%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	80	43.2%
力	15	8.1%
林	14	7.6%
連	7	3.8%
龍	6	3.2%
烈	6	3.2%
梁	5	2.7%
柳	5	2.7%
金	5	2.7%
勞	4	2.2%
Other values (23)	38	20.5%

Katakana

Value	Count	Frequency (%)
ル	31	12.4%
ネ	28	11.2%
エ	26	10.4%
ギ	26	10.4%
テ	18	7.2%
ス	15	6.0%
ク	12	4.8%
ム	11	4.4%
シ	10	4.0%
ノ	9	3.6%
Other values (33)	65	25.9%

Hiragana

Value	Count	Frequency (%)
と	4	21.1%
お	2	10.5%
く	1	5.3%
に	1	5.3%
の	1	5.3%
い	1	5.3%
し	1	5.3%
さ	1	5.3%
や	1	5.3%
ま	1	5.3%
Other values (5)	5	26.3%

Number Forms

Value	Count	Frequency (%)
Ⅲ	1	100.0%

Compat Jamo

Value	Count	Frequency (%)
ㅂ	1	100.0%

Enclosed Alphanum

Value	Count	Frequency (%)
ⓔ	1	100.0%

출판사
Text

Distinct	3246
Distinct (%)	32.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	60
Median length	53
Mean length	5.6661
Min length	1

Characters and Unicode

Total characters	56661
Distinct characters	1106
Distinct categories	11 ?
Distinct scripts	6 ?
Distinct blocks	7 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1979 ?
Unique (%)	19.8%

Sample

1st row	UNIDO
2nd row	민음사
3rd row	대외투자개발원
4th row	傳文閣
5th row	도솔

Value	Count	Frequency (%)
epri	248	2.2%
민음사	199	1.8%
김영사	133	1.2%
문학동네	129	1.1%
	113	1.0%
에너지경제연구원	103	0.9%
위즈덤하우스	94	0.8%
21세기북스	87	0.8%
살림	76	0.7%
시공사	66	0.6%
Other values (3442)	10116	89.0%

Most occurring characters

Value	Count	Frequency (%)
사	1786	3.2%
	1502	2.7%
스	1430	2.5%
e	876	1.5%
북	860	1.5%
o	849	1.5%
한	802	1.4%
이	787	1.4%
n	783	1.4%
i	747	1.3%
Other values (1096)	46239	81.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	40737	71.9%
Lowercase Letter	8269	14.6%
Uppercase Letter	4530	8.0%
Space Separator	1502	2.7%
Open Punctuation	412	0.7%
Close Punctuation	411	0.7%
Other Punctuation	410	0.7%
Decimal Number	285	0.5%
Dash Punctuation	100	0.2%
Other Symbol	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	1786	4.4%
스	1430	3.5%
북	860	2.1%
한	802	2.0%
이	787	1.9%
문	743	1.8%
출	589	1.4%
판	587	1.4%
원	563	1.4%
아	496	1.2%
Other values (1015)	32094	78.8%

Lowercase Letter

Value	Count	Frequency (%)
e	876	10.6%
o	849	10.3%
n	783	9.5%
i	747	9.0%
s	655	7.9%
r	636	7.7%
a	564	6.8%
t	481	5.8%
l	460	5.6%
c	383	4.6%
Other values (16)	1835	22.2%

Uppercase Letter

Value	Count	Frequency (%)
E	568	12.5%
I	541	11.9%
P	481	10.6%
R	426	9.4%
C	272	6.0%
A	263	5.8%
B	237	5.2%
O	219	4.8%
S	194	4.3%
M	175	3.9%
Other values (15)	1154	25.5%

Other Punctuation

Value	Count	Frequency (%)
:	144	35.1%
&	94	22.9%
,	56	13.7%
.	51	12.4%
/	31	7.6%
．	9	2.2%
'	5	1.2%
#	4	1.0%
＆	3	0.7%
;	3	0.7%
Other values (5)	10	2.4%

Decimal Number

Value	Count	Frequency (%)
2	138	48.4%
1	125	43.9%
0	9	3.2%
6	6	2.1%
3	4	1.4%
5	1	0.4%
9	1	0.4%
8	1	0.4%

Dash Punctuation

Value	Count	Frequency (%)
-	66	66.0%
－	34	34.0%

Space Separator

Value	Count	Frequency (%)
	1502	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	412	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	411	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	4	100.0%

Currency Symbol

Value	Count	Frequency (%)
$	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	36746	64.9%
Latin	12799	22.6%
Han	3797	6.7%
Common	3121	5.5%
Katakana	189	0.3%
Hiragana	9	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
사	1786	4.9%
스	1430	3.9%
북	860	2.3%
한	802	2.2%
이	787	2.1%
문	743	2.0%
출	589	1.6%
판	587	1.6%
원	563	1.5%
아	496	1.3%
Other values (605)	28103	76.5%

Han

Value	Count	Frequency (%)
社	317	8.3%
會	140	3.7%
國	130	3.4%
韓	123	3.2%
電	116	3.1%
出	96	2.5%
版	95	2.5%
文	84	2.2%
經	74	1.9%
協	74	1.9%
Other values (347)	2548	67.1%

Latin

Value	Count	Frequency (%)
e	876	6.8%
o	849	6.6%
n	783	6.1%
i	747	5.8%
s	655	5.1%
r	636	5.0%
E	568	4.4%
a	564	4.4%
I	541	4.2%
P	481	3.8%
Other values (41)	6099	47.7%

Katakana

Value	Count	Frequency (%)
ム	15	7.9%
ン	14	7.4%
エ	14	7.4%
タ	13	6.9%
ネ	13	6.9%
オ	12	6.3%
ル	11	5.8%
ギ	10	5.3%
イ	9	4.8%
ス	8	4.2%
Other values (36)	70	37.0%

Common

Value	Count	Frequency (%)
	1502	48.1%
(	412	13.2%
)	411	13.2%
:	144	4.6%
2	138	4.4%
1	125	4.0%
&	94	3.0%
-	66	2.1%
,	56	1.8%
.	51	1.6%
Other values (19)	122	3.9%

Hiragana

Value	Count	Frequency (%)
せ	2	22.2%
か	1	11.1%
ん	1	11.1%
き	1	11.1%
ぎ	1	11.1%
ょ	1	11.1%
う	1	11.1%
い	1	11.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	36742	64.8%
ASCII	15867	28.0%
CJK	3756	6.6%
Katakana	189	0.3%
None	57	0.1%
CJK Compat Ideographs	41	0.1%
Hiragana	9	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
사	1786	4.9%
스	1430	3.9%
북	860	2.3%
한	802	2.2%
이	787	2.1%
문	743	2.0%
출	589	1.6%
판	587	1.6%
원	563	1.5%
아	496	1.3%
Other values (604)	28099	76.5%

ASCII

Value	Count	Frequency (%)
	1502	9.5%
e	876	5.5%
o	849	5.4%
n	783	4.9%
i	747	4.7%
s	655	4.1%
r	636	4.0%
E	568	3.6%
a	564	3.6%
I	541	3.4%
Other values (63)	8146	51.3%

CJK

Value	Count	Frequency (%)
社	317	8.4%
會	140	3.7%
國	130	3.5%
韓	123	3.3%
電	116	3.1%
出	96	2.6%
版	95	2.5%
文	84	2.2%
經	74	2.0%
協	74	2.0%
Other values (334)	2507	66.7%

None

Value	Count	Frequency (%)
－	34	59.6%
．	9	15.8%
㈜	4	7.0%
＆	3	5.3%
；	2	3.5%
·	2	3.5%
／	2	3.5%
＠	1	1.8%

Katakana

Value	Count	Frequency (%)
ム	15	7.9%
ン	14	7.4%
エ	14	7.4%
タ	13	6.9%
ネ	13	6.9%
オ	12	6.3%
ル	11	5.8%
ギ	10	5.3%
イ	9	4.8%
ス	8	4.2%
Other values (36)	70	37.0%

CJK Compat Ideographs

Value	Count	Frequency (%)
力	10	24.4%
率	6	14.6%
理	6	14.6%
金	5	12.2%
勞	4	9.8%
聯	3	7.3%
良	1	2.4%
率	1	2.4%
利	1	2.4%
女	1	2.4%
Other values (3)	3	7.3%

Hiragana

Value	Count	Frequency (%)
せ	2	22.2%
か	1	11.1%
ん	1	11.1%
き	1	11.1%
ぎ	1	11.1%
ょ	1	11.1%
う	1	11.1%
い	1	11.1%

출판년
Text

Distinct	69
Distinct (%)	0.7%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	4
Median length	4
Mean length	3.993
Min length	2

Characters and Unicode

Total characters	39930
Distinct characters	13
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	7 ?
Unique (%)	0.1%

Sample

1st row	1988
2nd row	2010
3rd row	1995
4th row	1995
5th row	1995

Value	Count	Frequency (%)
2017	541	5.4%
2015	499	5.0%
2014	489	4.9%
2016	479	4.8%
2008	470	4.7%
2013	458	4.6%
2012	396	4.0%
2011	386	3.9%
2007	378	3.8%
2018	339	3.4%
Other values (59)	5565	55.6%

Most occurring characters

Value	Count	Frequency (%)
0	11074	27.7%
2	8953	22.4%
1	7554	18.9%
9	4989	12.5%
8	1641	4.1%
7	1373	3.4%
4	1087	2.7%
5	1080	2.7%
6	1048	2.6%
3	948	2.4%
Other values (3)	183	0.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	39747	99.5%
Other Letter	183	0.5%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	11074	27.9%
2	8953	22.5%
1	7554	19.0%
9	4989	12.6%
8	1641	4.1%
7	1373	3.5%
4	1087	2.7%
5	1080	2.7%
6	1048	2.6%
3	948	2.4%

Other Letter

Value	Count	Frequency (%)
미	61	33.3%
등	61	33.3%
록	61	33.3%

Most occurring scripts

Value	Count	Frequency (%)
Common	39747	99.5%
Hangul	183	0.5%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	11074	27.9%
2	8953	22.5%
1	7554	19.0%
9	4989	12.6%
8	1641	4.1%
7	1373	3.5%
4	1087	2.7%
5	1080	2.7%
6	1048	2.6%
3	948	2.4%

Hangul

Value	Count	Frequency (%)
미	61	33.3%
등	61	33.3%
록	61	33.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	39747	99.5%
Hangul	183	0.5%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	11074	27.9%
2	8953	22.5%
1	7554	19.0%
9	4989	12.6%
8	1641	4.1%
7	1373	3.5%
4	1087	2.7%
5	1080	2.7%
6	1048	2.6%
3	948	2.4%

Hangul

Value	Count	Frequency (%)
미	61	33.3%
등	61	33.3%
록	61	33.3%

연번

연번

Phik (φk)

Heatmap
Table

	연번	출판년
연번	1.000	0.957
출판년	0.957	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	연번	등록번호	청구기호	서명	저자	출판사	출판년
49420	634	AA199101833	31:62 U58i	Industry and Development Global Report 1988/89	United Nations Industrial Development Organization	UNIDO	1988
17818	26034	AA201110376	82-3(08) 레31ㅅ V.246	사랑할 때와 죽을 때. V.246 ; 세계문학전집 ; 246	에리히 마리아,레마르크 ; 장희창	민음사	2010
50448	7265	AA199510840	340.13(51) 김14ㄱ	중국 외자기업 세법편람	김경직	대외투자개발원	1995
50339	7167	AA199510711	347.1(076) 홍53ㅁ	民法 및 民事特別法	洪性徹	傳文閣	1995
50562	7368	AA199510951	802.0 배79ㅇ	영어회화 삼국지1	배진용	도솔	1995
41080	46971	AA201910976	82-311.9 윌239ㅇ 2	올클리어 2	코니 윌리스 지음	아작	2019
20404	28362	AA201310519	620.9 에213ㅅ	세계 에너지시장 인사이트 2012 : 국가별 정책 및 시장동향	에너지경제연구원	에너지경제연구원	2012
8162	17344	AA200410885	624.131 김51ㅌ	토질역학	김상규	청문각	2004
368	10329	AA199710129	951.9:32 서67ㅎ	한국역사와 개혁정치	서울대학교 사회발전연구소	서울대학교 사회발전연구소	1997
23520	31166	AA201402532	082.2 빛11ㄷ v.121	동신당 ; 빛깔있는 책들 ; 121	김태곤 글·사진	대원사	2003

	연번	등록번호	청구기호	서명	저자	출판사	출판년
49026	5986	AA199410719	72.021.2 집37ㄱ	建築設計資料集成；9．地域	集文社	集文社	1993
7951	17154	AA200410690	659.3 브232ㅁ	미디어랩;MIT에서 미래만들기	스튜어트 브랜드 ; 김창현 공역	한울 아카데미	2004
11994	20793	AA200711064	908(08) 드233ㅋ V.41	큐리어스시리즈 41 : 인도네시아	캐시 드레인 ; 바버라 홀 ; 박영원	휘슬러	2005
43598	49237	AA202010833	5(08) 곰225ㄴ v.48	내일은 실험왕 48 : 방사능 물질	스토리 a. 지음	아이세움	2019
48598	560	AA199101687	336.76 재228ㄷ	大和證券	紊藤裕	かんき出版	1984
8739	17864	AA200510177	31:628(058) 환14ㅎ	환경통계연감 2004	환경부	환경부	2004
30477	37428	AA201560085	551 D711e V.1	Eyewonder 1 : Earth by Penelope York. V.1 ; DK Eyewonder	Dorling Kindersley Limited	DorlingKindersleyLimited	2004
23919	31525	AA201402892	082.2 살239ㅅ v.93	한국의 연출가들 ; 살림지식총서 ; 93	김남석 지음	살림	2010
6079	1547	AA199103197	5/6(038) D133l	Longman Dictionary of Scientific Usage	John Daintith	Longman Group Ltd	1979
47406	52664	AA202210280	809.51 제69ㅁ 6	맛있는 중국어 Level 6 중국통 : 최신 개정	JRC 중국어연구소 지음	맛있는Books(JRC북스)	2021

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Math Symbol

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Compat Jamo

Hangul

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Math Symbol

Close Punctuation

Open Punctuation

Letter Number

Dash Punctuation

Space Separator

Final Punctuation

Initial Punctuation

Currency Symbol

Connector Punctuation

Modifier Symbol

Other Symbol

Other Number

Most occurring scripts

Most frequent character per script

Hangul

Han

Katakana

Common

Latin

Hiragana

Most occurring blocks

Most frequent character per block

ASCII

Hangul

CJK

Hiragana

None

CJK Compat Ideographs

Katakana

Number Forms

Punctuation

Compat Jamo

Math Operators