Web Scraping usando Scrapy Spider para obtener el resultado de la reseña de un usuario sobre un juego en la Tienda Steam (like/dislike), a partir de una lista de urls con el siguiente formato:
data.csv
url
https://steamcommunity.com/profiles/<user_id>/recommended/<product_id>
https://steamcommunity.com/id/<username>/recommended/<product_id>
...
Campos:
user_ides el id usuario de Steam.usernamees el nickname del usuario en Steam.product_ides el id del juego en la Tienda Steam.
Los mismos deben encontrarse dentro de data.csv (ejemplo incluido dentro del repositorio).
Crear un entorno de python y activarlo (ej. virtualenv):
virtualenv env -p python3
source env/bin/activate
Clonar el repositorio:
git clone https://github.com/bruino/scraping-reviews-steam.git
Ir al directorio scraping-reviews-steam:
cd scraping-reviews-steam
Instalar las librerías:
pip install -r requirements.txtEjecutar:
scrapy crawl steam -o steam_reviews_likes_users.jlEl resultante es un archivo steam_reviews_likes_users.jl del tipo Json Line.
{"game": "357070", "user": "bruino", "recommended": 1}
...Debido a que en algunos casos surgen redireccionamientos (HTTP Redirect Status) y algunos perfiles de usuarios de Steam son privados, se aplico la siguiente configuración que omite aquellos casos especiales.
settings.py
REDIRECT_ENABLED = False