목록태그 (4)
컴공생의 다이어리
워드 클라우드(Word Cloud), 태그 클라우드(tag cloud)란? 워드 클라우드는 태그 클라우드와 동의어이다. 워드 클라우드란 문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각화하는 기법이다. 예를 들면 많이 언급될수록 단어를 크게 표현해 한눈에 들어올 수 있게 하는 기법 등이 있다. 주로 빅데이터(big data)를 분석할 때 데이터의 특징을 도출하기 위해 활용한다. https://juem.tistory.com/10 빅데이터! 워드 클라우드(Word Cloud)로 손쉽게 표현하는 꿀팁! 워드 클라우드란(Word Cloud)란? 문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각적으로 돋보이게 하는 기법입니다. 예를 들면 많이 언급될수록 단어를 크게 ..
BeautifulSoup의 find(), find_all(), .string, get_text()에 이어서 BeautifulSoup의 select() 함수에 대해 알아보자! select() 함수를 사용하여 원하는 데이터 추출 find() 함수와 find_all() 함수를 이용하여 원하는 태그를 찾는 방법도 있지만 select() 함수를 사용하여 원하는 데이터를 추출할 수 있다. select() 함수를 이용하여 데이터 추출하는 방법의 장점은 다양한 옵션들을 사용할 수 있는 것이다. 아래와 같이 ex1에 html이 저장되어 있다고 하고 select() 함수를 활용해보자! select('태그이름') 아래는 태그의 내용을 모두 추출한 것이다. select('.클래스명') 아래는 클래스 이름이 name1인 태그만..
BeautifulSoup Beautiful Soup은 HTML 및 XML 문서를 구문 분석하기위한 Python 패키지이다. HTML에서 데이터를 추출하는 데 사용할 수있는 구문 분석 된 페이지에 대한 구문 분석 트리를 만들며, 웹 스크래핑에 유용하다. (만일 BeautifulSoup 패키지가 설치되지 않았다면 [pip install bs4] 명령어를 통해 설치) find() 함수 find() 함수는 조건을 만족하는 태그를 하나만 가져오는 함수이다. 만일 아래와 같이 p 태그가 여러 개 있을 경우에도 find() 함수는 p태그 중 첫번째 태그 1개만 가져온다. 위의 ex2의 html 코드 중 p태그가 3개가 있는데 여기서 align 속성이 center, right, left로 각각 다른 것을 볼 수 있다...
html 웹페이지의 시작과 끝 구성 : ... cf) 문서유형을 지정해서 웹브라우저가 페이지를 어떻게 해석해야 하는지 알려줌 ex) : 이 페이지는 html로 해석해야 함! head(머리말) 웹페이지의 정보, 문서에서 사용할 외부 파일들을 링크할 때 사용 구성 : body(본문) 브라우저에 실제 표시되는 내용 구성 : ... meta(정보에 대한 정보를 알려줌) 문자 인코딩 및 문서 키워드, 요약 정보 구성 : ex) : 웹페이지의 문자 인코딩 방식을 utf-8로 지정 title(문서 제목) 안의 내용이 웹브라우저의 제목 표시줄에 표시 구성 : ... p(단락) 를 사용하면 내용 앞 뒤로 빈줄이 생기면서 단락이 생김 구성 : ... h1~h6(제목) 이 글자 크기가 제일 크며, 로 갈수록 글자 크기가 작..