Python/Python 웹크롤링

웹 HTML 언어구조

민도리 2021. 5. 22. 23:09


웹의 기본, HTML


코딩이나 웹 언어를 배우려면 가장 기본이 되는 언어가
바로 HTML이라고 할 수 있습니다.

웹크롤링


웹크롤링을 구현 했을때 필수적으로 마주하게 되는
언어이기에 기초적인 지식이나 구조를 간단히 배우면 웹에서의 정보를 통해 데이터 분석을 할 때 보다 쉽게 이해할 수 있습니다.

실제로 코딩 입문을 하며, 파이썬을 통한 웹크롤링을 했을 때 html에 대해서 기본적인 지식이 없어서 난감했었던 경우도 있었습니다. 사실상 기본적인 구조만 알아두면 웹 사이트에서 원하는 정보의 위치가 어느 태그에 있는지 보다 쉽게 알 수 있습니다.

참고할 만한 강의


저는 동영상 강의는 유튜브에서 ‘생활코딩’의 강의를 참고하여 간단히 구조를 익혔고 코딩 입문자에 웹크롤링을 구현하고자 한다면 추천드립니다. 재생목록에서 각 시리즈 별로 나누어져 있고 비교적 짧은 강의 형식으로 쉽게 들을 수 있는 강의입니다.

@ 생활코딩님의 WEB1 -html의 개념
https://youtu.be/MLXlXCwA0T4


강의에 기반하여 얻은 내용을 통해

1. html editor 다운로드

‘html editor’ ‘best HTML editor 2021’
- 아톰(atom) https://atom.io

A hackable text editor for the 21st Century

At GitHub, we’re building the text editor we’ve always wanted: hackable to the core, but approachable on the first day without ever touching a config file. We can’t wait to see what you build with it.

atom.io


2. 새 폴더 생성 후 웹 창 띄워서 html 작성

3 태그(tag) 생성 <>, </>

-태그 정의 찾기 : ‘html 찾는 태그 tag’ 검색, 예제 직접 창에 작성해서 의미 유추해보기

-자주 쓰이는 태그 확인:
https://www.advancedwebranking.com/html/

The average web page from top twenty Google results

Apparently, an average web page uses thirty-two different element types: The thirty-two elements used on most pages, ordered by appearance frequency:

www.advancedwebranking.com

-속성(attribute) :
태그명 만으로 정보가 부족할 때 추가 정보를 나타내는 것

-부모태그, 자식태그

-웹서버, 웹클라이언트

index.html의 정보를 통해 웹서버가 웹 클라이언트의 요청을 받아서 수행하는 역할로 웹 작업이 이루어짐

-웹 호스팅:

깃허브 : 홈페이지를 운영할 수 있는 웹 서버를 제공
https://github.com