title

Sciences de gestion en hôtellerie et tourisme: comment extraire et utiliser les données de Tripadvisor.com pour analyser le service hôtelier à Lyon

TripAdvisor, l'un des plus grand site de voyage au monde, numéro un de publications d'avis est devenu juste incontournable! Dans ce projet, nous allons extraire les données hôtelières de Lyon de 20 pages du site TripAdvisor. Nous obtiendrons des informations sur l'ID de l'hôtel, qui est un numéro unique de chaque hôtel, nom, note, équipements, fournisseur et avis. Nous examinerons différentes fonctionnalités telles que le prix, les équipements et les notes qui vous aideront à réserver un hôtel la prochaine fois que vous planifiez un voyage à Lyon! Nous analyserons également les avis pour comprendre que la prochaine fois que vous réserverez un hôtel et paierez un prix plus élevé pour un hôtel bien noté, cela en vaut-il vraiment la peine?

Pour faire cette analyse, nous nous concentrons sur les éléments suivants:

1.- Nous allons extraire les données de Tripadvisor

2.- Nous aborderons les équipements hôtelier

3.- Nous explorerons les commodités populaires de l'hôtel

4.- Nous saurons quels hôtels sont les mieux évalués

5.- Nous découvrirons les meilleurs prestataires de réservation d'hôtels

6.- Nous analyserons les avis des hôtels pour trouver les 20 mots les plus fréquents

7.- Nous analyserons les opinions des commentaires.

8.- Nous analyserons l'évaluation des sentiments des commentaires en fonction du ranking de l'hôtel.

Bien, faisons ça!

Extraction et parseur les données Tripadvisor

In [37]:
#Import librairies
from requests import get
import re
import seaborn as sns
import matplotlib.pyplot as plt
import string
from plotly.offline import init_notebook_mode, iplot
import plotly.offline as pyo
import plotly.graph_objs as go
pyo.init_notebook_mode()
from bs4 import BeautifulSoup
#import time
from random import randint
from time import time
from time import sleep
from IPython.core.display import clear_output
import pandas as pd
import numpy as np
from wordcloud import WordCloud,STOPWORDS
from sklearn.feature_extraction.text import CountVectorizer
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer