목록data (11)
컴공생의 다이어리
데이터 포맷(XML, JSON, CSV) 데이터 크기 : XML > JSON > CSV XML JSON CSV 장점 ‣ XML은 3가지 포맷중 가장 직관적 ‣ 메타 정보를 제공해서 정보 표현 이상의 효과를 가져올 수 있음 모양과 규칙 자체가 단순해서 타 언어에서도 구현하기가 쉬움 ‣ 용량이 가장 작음 ‣ csv는 용량이 작기 때문에 변하지 않는 많은 양의 데이터를 제공할 때 주로 이용이 가능 단점 실제 전송하는 정보보다 메타 데이터의 크기가 더 커질 수 있음 콤마가 누락되거나 중괄호가 잘못 닫히는 등 문법 오류에 취약하다. 데이터가 많아지면 어떤 데이터가 항목을 나타내는지 가시화가 어려움 주요 사용처 단순 게임 옵션, 직접 데이터 수정이 잦은 부분에 사용 서버 통신 REST API를 사용할 때 가장 많이..
데이터 정의어(DDL, Data Definition Language) 데이터 정의어는 테이블을 정의(생성, 변경, 삭제)할 때 사용하는 명령어이다. 테이블, 데이터 타입 테이블은 각 열마다 반드시 1가지 데이터 타입으로 정의되어야 한다. ▶ 숫자형 ▶ 문자형 ▶ 날짜형 테이블, 제약조건 테이블은 각 열마다 제약 조건을 정의할 수 있다. PK(Primary Key) : 중복되어 나타날 수 없는 단일 값 : NOT NULL NOT NULL : NULL을 허용하지 않음 /* Practice 이름으로 데이터베이스 생성*/ CREATE DATABASE Practice; /* Practice 데이터베이스 사용*/ USE Practice; /***************테이블 생성(Create)*************..
pandas의 데이터 타입(data type) dtype int64 float64 bool datetime64 category object 설명 정수형 실수형 부울형 날짜표현 카테고리 문자열 or 복합형 * Category형 타입? 카테고리형(Categorical) 데이터는 데이터프레임의 칼럼에서 특정한 형태의 데이터가 반복되는 경우 사용한다. 예를 들어 성별(남성, 여성), 나이(10대, 20대, ...)와 같이 특정 구간의 데이터가 반복되는 경우를 말한다. 카테고리형 데이터를 이용하면 반복된 데이터를 코드화하여 데이터의 사이즈를 줄여서 메모리 사용량이 줄어 들고 데이터 처리 속도가 빨라진다. 데이터프레임의 각 컬럼의 타입 출력 데이터 프레임의 각 컬럼의 타입을 출력하려면 dtypes를 통해 확인할 수..
pandas(판다스) 데이터 프레임(dataframe) 출력 pandas의 데이터 프레임을 출력하는 방법에 대해 정리하고자 한다. 데이터 프레임의 상위 n개 행 출력 데이터 프레임의 상위 행을 출력하려면 head()를 사용하면 된다. head함수의 인자로 출력하고 싶은 행의 수(n)를 넣어주면 상위 n개의 행을 출력한다. 인자를 넣지 않으면 head함수의 기본값인 5개의 행이 출력된다. import pandas as pd df.head()#상위 5개의 행 출력 df.head(10)#상위 10개의 행 출력 데이터 프레임의 하위 n개 행 출력 데이터 프레임의 하위 행을 출력하려면 tail()를 사용하면 된다. tail함수의 인자로 출력하고 싶은 행의 수(n)를 넣어주면 하위 n개의 행을 출력한다. 인자를 넣..
깃허브를 데이터 저장소로 활용 서버 원격 저장소의 PASS로 보통 AWS의 S3를 사용한다. 오늘은 깃허브를 데이터 저장소로 활용(?)할 수 있는 방법에 대해 정리하고자 한다. GitHub에서는 GitHub REST API 와 GitHub Content API를 제공한다. 원격 저장소처럼 Git에 올라와있는 파일들을 다운로드 받을 수 있다. 문서를(클릭) 보면 아래와 같은 부분을 볼 수 있다. 여기서 "download_url" 부분의 "https://raw.githubusercontent.com/octokit/octokit.rb/master/README.md"는 해당 파일을 다운로드 받을 수 있는 uri(오타아님)이다. https://raw.githubusercontent.com/{owner}/{repo..
워드 클라우드(Word Cloud), 태그 클라우드(tag cloud)란? 워드 클라우드는 태그 클라우드와 동의어이다. 워드 클라우드란 문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각화하는 기법이다. 예를 들면 많이 언급될수록 단어를 크게 표현해 한눈에 들어올 수 있게 하는 기법 등이 있다. 주로 빅데이터(big data)를 분석할 때 데이터의 특징을 도출하기 위해 활용한다. https://juem.tistory.com/10 빅데이터! 워드 클라우드(Word Cloud)로 손쉽게 표현하는 꿀팁! 워드 클라우드란(Word Cloud)란? 문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각적으로 돋보이게 하는 기법입니다. 예를 들면 많이 언급될수록 단어를 크게 ..
자바(Java)의 기본 자료형(primitive data type) 자바의 자료형은 크게 기본형(primitive type)과 참조형(referene type)으로 나뉜다. 오늘은 기본형에 대해 정리해보고자 한다. 기본형은 정수형, 문자형, 실수형, 논리형 네 가지로 분류할 수 있다. 아래의 표는 기본 자료형에 대해 정리한 것이다. 자료형 키워드 크기 설명 정수형 byte 1byte -27 ~ +27-1 short 2byte -215 ~ +215-1 int 4byte -231 ~ +231-1 long 8byte -263 ~ +263-1 문자형 char 2byte 유니코드 문자열 실수형 float 4byte -3.4E38 ~ +3.4E38 double 8byte -1.7E308 ~ +1.7E308 논리형 ..
SQL문의 종류 SQL 문은 DML문, TCL문, DDL문, DCL문으로 구분된다. 종류 구문 설명 DML (Data Manipulation Language) SELECT INSERT UPDATE DELETE MERGE 테이블에 저장된 데이터를 조작(조회, 입력, 수정, 삭제)하기 위한 구문 TCL (Transaction Control Language) COMMIT ROLLBACK SAVEPOINT DML문에 의한 데이터의 변경 사항을 데이터베이스에 영구히 반영하거나 취소하기 위해 트랜잭션을 제어하는 구문 DDL (Data Definition Language) CREATE ALTER DROP RENAME TRUNCATE 테이블, 인덱스와 같은 데이터베이스 오브젝트의 구조를 정의(생성, 변경, 삭제)하기 ..
데이터 모델(Data Model) - 데이터 모델은 현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형 - 데이터 모델은 데이터, 데이터의 관계, 데이터의 의미 및 일관성, 제약 조건 등을 기술하기 위한 개념적 도구들로 구성 - 데이터베이스 설계 과정에서 데이터의 구조를 논리적으로 표현하기 위해 지능적 도구로 사용 - 데이터 모델 구성 요소 : 개체, 속성, 관계 - 데이터 모델 종류 : 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델 - 데이터 모델에 표시할 요소 : 구조, 연산, 제약 조건 구조 (Structure) 논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질 표현 연산 (Operation) 데이터베이스에 저장된 실..
간혹 데이터프레임의 열이 많을 때, 아래와 같이 ···으로 일부 열이 생략이되서 나온다. 상가업소번호 상호명 지점명 상권업종대분류코드 상권업종대분류명 상권업종중분류코드 상권업종중분류명 상권업종소분류코드 상권업종소분류명 표준산업분류코드 ... 건물관리번호 건물명 도로명주소 구우편번호 신우편번호 동정보 층정보 호정보 경도 위도 0 17163092 도전최강달인왕만두 NaN Q 음식 Q01 한식 Q01A01 한식/백반/한정식 I56111 ... 1174010200102170000018014 고덕그라시움 서울특별시 강동구 고덕로 333 134082 5224.0 NaN NaN NaN 127.159471 37.556197 1 17120456 이때 NaN Q 음식 Q01 한식 Q01A01 한식/백반/한정식 I56111..