Web crawling
- ν¬λ‘€λ§(Crawling)μ΄λ μ¬μ μ μλ―Έλ‘ κΈ°μ΄λ€λλ€λ₯Ό λ»νκ³ , Webμμλ λμλ€λλ©΄μ μνλ μ 보λ₯Ό μμ§νλ νμλ₯Ό μλ―Ένλ€.
- ν¬λ‘€λ§μ λμμ μμμ μΈκΈν λλ‘ μΉ μμ μ‘΄μ¬νλ μ 보λ€μ΄λ©°, ν΄λΉ μ 보λ λ€μν ννλ‘ μ‘΄μ¬ν μ μλ€.(μ΄λ―Έμ§, ν μ€νΈ, API λ±)
- ν¬λ‘€λ§μ ν¬κ² λ κ°μ§λ‘ λλμ΄ μ§ μ μλ€. (μ μ ν¬λ‘€λ§ VS λμ ν¬λ‘€λ§)
- μ μ ν¬λ‘€λ§
- νΉλ³ν μ μ°¨ μμ΄ νΉμ URLμ ν΅ν΄ λ°μ΄ν° μμ§ κ°λ₯
- μλ‘κ³ μΉ¨νμ§ μμΌλ©΄ νμ΄μ§ μμ λ°μ΄ν°λ λ³νμ§ μλλ€.
- μλκ° λΉ λ₯΄λ€.
- μμ§ λμμ νκ³ μ‘΄μ¬νλ€.
- μ¬μ© κ°λ₯ λΌμ΄λΈλ¬λ¦¬ : requests
β
- λμ ν¬λ‘€λ§
- νΉλ³ν μ μ°¨ μμ΄ νΉμ URLμ ν΅ν΄ λ°μ΄ν° μμ§ λΆκ°λ₯(λ€μ΄λ² λ©μΌμ κ²½μ°)
- μλκ° λ리λ€.
- μμ§ λμμ νκ³κ° κ±°μ μ‘΄μ¬νμ§ μλλ€.
- μ¬μ© κ°λ₯ λΌμ΄λΈλ¬λ¦¬ : selenium
Web Scraping
μΉ μ€ν¬λνμ 'μ°λ¦¬κ° μ ν νΉμ μΉ νμ΄μ§μμ λ°μ΄ν°λ₯Ό μΆμΆνλ κ²'.
μ°λ¦¬κ° νΉμ μ£Όμ μ λ΄μ€λ§μ κ°μ Έμ€κ±°λ, μΈκΈ° κ²μμ΄ μ 보λ₯Ό κ°μ Έμ€λ κ², μ΄λ€ μνμ κ°κ²©μ λͺ¨λν°λ§νλ κ² λͺ¨λ μΉ μ€ν¬λνμ΄λ€.
μ°λ¦¬κ° μνλ νΉμ μΉ μ¬μ΄νΈκ° μκ³ κ·Έκ³³μμ μ°λ¦¬κ° νμν μ 보λ§μ κ°μ Έμ€λ κ².
κ·Έλμ μΉ μ€ν¬λνμ μΉ λ°μ΄ν° μΆμΆ(web data extraction), μΉ νλ² μ€ν (web harvesting)μ΄λΌκ³ λ λΆλ₯Έλ€.
BeautifulSoup
κ²°κ³Ό:
λκΈ