NOIZZE Crawler

A web page crawler PyPI Package which returns (title(og, head), image(og, meta), description(og, meta)).

Dependency

BeautifulSoup4

Installation

Run the folowing to install:

pip install noizze-crawler

Usage

import noizze_crawler as nc
import sys


if __name__ == '__main__':
    url = 'https://dvdprime.com/g2/bbs/board.php?bo_table=comm&wr_id=20525678'

    try:
        (title, desc, image_url, html) = nc.crawler(url)

    except nc.HostNotFound as e:
        print("Host Not Found")
        sys.exit(1)
    except nc.HTTPError as e:
        print("HTTP {}".format(e))
        sys.exit(1)

    print(title, desc, image_url)  # html

ChangeLog

v12: Fixed #13
v11: Fixed bugs #3 #8
v10: Fixed bugs
v9: Added Youtube crawler via Google API #4
v8: Changed PyPI dependency - bs4
v7: Changed PEP8
v6: Added Exceptions HostNotFound, HTTPError

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NOIZZE Crawler

Dependency

Installation

Usage

ChangeLog

About

Releases

Packages

Contributors 2

Languages

License

YUChoe/noizze_crawler

Folders and files

Latest commit

History

Repository files navigation

NOIZZE Crawler

Dependency

Installation

Usage

ChangeLog

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages