{"id":2013,"date":"2019-03-15T10:46:07","date_gmt":"2019-03-15T13:46:07","guid":{"rendered":"https:\/\/www.grid.cl\/blog\/?p=2013"},"modified":"2019-03-15T10:46:07","modified_gmt":"2019-03-15T13:46:07","slug":"el-web-scraping-que-es-aplicaciones-y-consecuencias","status":"publish","type":"post","link":"https:\/\/www.grid.cl\/blog\/el-web-scraping-que-es-aplicaciones-y-consecuencias\/","title":{"rendered":"El web scraping: qu\u00e9 es, aplicaciones y consecuencias"},"content":{"rendered":"<p>El <strong>web scraping<\/strong> consiste en <strong>navegar autom\u00e1ticamente una web<\/strong> y extraer de ella informaci\u00f3n. Esto puede ser muy \u00fatil para much\u00edsimas cosas y <strong>beneficioso para casi cualquier negocio<\/strong>. A d\u00eda de hoy, no creo que exista una sola <strong>empresa de \u00e9xito<\/strong> que no lo haga o <strong>que no quiera hacerlo<\/strong>. De hecho, la empresa reina del <strong>scrapeo es Google<\/strong>, que para que su buscador funcione as\u00ed de bien tiene que estar constantemente <strong>scrapeando la red entera<\/strong>.<\/p>\n<h1><strong>\u00bfQu\u00e9 es scraping y para qu\u00e9 se utiliza?<\/strong><\/h1>\n<p>El <strong>scraping es una t\u00e9cnica inform\u00e1tica<\/strong> que se utiliza para extraer datos de <strong>cualquier p\u00e1gina de internet<\/strong> de forma automatizada. Es decir, <strong>extraemos la base de datos,<\/strong> la informaci\u00f3n web mediante un programa. La traducci\u00f3n exacta de <strong>scraping es raspado<\/strong>.<\/p>\n<p><strong>Copiar datos<\/strong> de una p\u00e1gina web y pegarlos en una base de datos de excel se <strong>considerar\u00eda extracci\u00f3n de datos<\/strong>. Si, en lugar de hacerlo de forma manual, recurrimos a robots o bots que <strong>automatizan todo el trabajo<\/strong>, estaremos hablando de <strong>web scraping.<\/strong><\/p>\n<h1><strong>Aplicaciones del web scraping<\/strong><\/h1>\n<p>Vamos a necesitar <strong>web scraping<\/strong> para:<\/p>\n<ul>\n<li>\n<h3><strong>Marketing de contenidos<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>Podemos <strong>dise\u00f1ar un robot<\/strong> que haga un scrapeo de datos <strong>concretos de una web<\/strong> y los podamos utilizar para <strong>generar nuestro propio contenido.<\/strong><\/p>\n<ul>\n<li>\n<h3><strong>Ganar visibilidad en redes sociales<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>Podr\u00edamos <strong>utilizar los datos de un scrapeo<\/strong> para interactuar a trav\u00e9s de un robot <strong>con usuarios en redes sociales<\/strong>.<\/p>\n<ul>\n<li>\n<h3><strong>Controlar la imagen y la visibilidad de nuestra marca en internet<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>A trav\u00e9s de un <strong>scrapeo podemos automatizar la posici\u00f3n<\/strong> por la que varios art\u00edculos de nuestra web se posicionan en Google o por ejemplo, <strong>controlar la presencia del nombre<\/strong> de <strong>nuestra marca en determinados foros<\/strong>.<\/p>\n<ul>\n<li>\n<h3><strong>Monitorizaci\u00f3n de la competencia<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>El precio no es la \u00fanica <strong>variable competitiva<\/strong> en el entorno digital. <strong>Podemos controlar, rastrear<\/strong> y generar alertas para saber cu\u00e1ndo los competidores actualizan sus cat\u00e1logos de producto o servicio, <strong>renuevan su sitio web<\/strong>, escriben sobre un <strong>tema concreto<\/strong>, mencionan <strong>nuestros productos<\/strong>, entre otros.<\/p>\n<ul>\n<li>\n<h3><strong>Caza de tendencias o cool hunting<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>La <strong>caza de tendencias<\/strong>. Consiste en, usar el scraping no solo para saber qu\u00e9 se <strong>piensa de una marca<\/strong>, sino de qu\u00e9 marcas, productos, <strong>persona se va a estar hablando<\/strong> durante los pr\u00f3ximos meses, para <strong>aprovechar las oportunidades<\/strong> de <strong>marketing.<\/strong><\/p>\n<ul>\n<li>\n<h3><strong>Optimizaci\u00f3n de precios<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>El <strong>scraping continuo<\/strong> de diferentes competidores permite generar hist\u00f3ricos <strong>a lo largo del tiempo<\/strong> con las condiciones <strong>del pricing<\/strong>, as\u00ed como conocer en tiempo real qui\u00e9n ofrece los mejores precios. Esto permite <strong>ofrecer un precio \u00f3ptimo<\/strong> de venta, tanto <strong>al cliente final<\/strong> como <strong>al canal de distribuci\u00f3n.<\/strong><\/p>\n<ul>\n<li>\n<h3><strong>Optimizaci\u00f3n ecommerce<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>Las tiendas online son muy <strong>sensibles al scraping<\/strong>. Se pueden usar <strong>t\u00e9cnicas de scraping<\/strong> que nos ayuden a elegir qu\u00e9 imagen mostrar como destacada, qu\u00e9 categorizaci\u00f3n de productos funciona mejor, qu\u00e9 nicho est\u00e1 libre en <strong>un mercado concreto, etc.<\/strong><\/p>\n<ul>\n<li>\n<h3><strong>Google Search Analysis<\/strong><\/h3>\n<\/li>\n<\/ul>\n<p>El <strong>scraping de las SERP<\/strong> resultados de b\u00fasqueda de Google es crucial para conocer <strong>el rendimiento digital<\/strong> de un proyecto: saber c\u00f3mo se posiciona para las keywords adecuadas, como hacen <strong>algunas herramientas SEO<\/strong>, aunque <strong>tienen sus limitaciones<\/strong>, conocer la cuota de <strong>mercado digital<\/strong> en b\u00fasquedas, el tipo de contenidos que <strong>deber\u00edan potenciarse, etc.<\/strong><\/p>\n<h1><strong>\u00bfQu\u00e9 conocimientos debes tener para ser un buen web scraper?<\/strong><\/h1>\n<p>Hay 3 puntos claves que debemos dominar para ser unos buenos web scrapers:<\/p>\n<ol>\n<li><strong>Conocimientos de maquetaci\u00f3n web<\/strong>: Los web scraper funcionan seleccionando <strong>selectores HTML<\/strong> y para ello nos har\u00e1 falta tener cuatro <strong>conocimientos b\u00e1sicos<\/strong> de <strong>arquitectura web<\/strong>.<\/li>\n<li><strong>Saber utilizar software para visualizar los datos<\/strong>: Como por ejemplo <strong>un procesador de hojas de c\u00e1lculo<\/strong> de Google, o <strong>un editor de texto b\u00e1sico<\/strong>.<\/li>\n<li><strong>Tener conocimientos de regex<\/strong>: Tener conocimientos m\u00ednimos de regex, tambi\u00e9n llamado <strong>regular expression<\/strong>. Nos va a <strong>facilitar mucho<\/strong> el trabajo al trabajar con grandes cantidades de datos ya que puede <strong>ahorrarnos miles de horas<\/strong> de laborioso trabajo a la hora de corregir o depurar los datos antes de importarlos a <strong>plataforma deseada<\/strong>.<\/li>\n<\/ol>\n<h1><strong>Consecuencias del sitio web scrapeado<\/strong><\/h1>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-2014 aligncenter\" src=\"https:\/\/www.grid.cl\/blog\/wp-content\/uploads\/2019\/03\/0_XxL6kl8FNt7y-G6o_.png\" alt=\"\" width=\"530\" height=\"370\" srcset=\"https:\/\/www.grid.cl\/blog\/wp-content\/uploads\/2019\/03\/0_XxL6kl8FNt7y-G6o_.png 530w, https:\/\/www.grid.cl\/blog\/wp-content\/uploads\/2019\/03\/0_XxL6kl8FNt7y-G6o_-300x209.png 300w, https:\/\/www.grid.cl\/blog\/wp-content\/uploads\/2019\/03\/0_XxL6kl8FNt7y-G6o_-100x70.png 100w\" sizes=\"auto, (max-width: 530px) 100vw, 530px\" \/><\/p>\n<p>Hay que tener en cuenta que, cuando <strong>una web se scrapea<\/strong>, se est\u00e1 simulando la visita de un usuario. Si el servicio web recibe <strong>demasiadas visitas<\/strong> y no le da tiempo de servir a todas, se puede colapsar. El <strong>scrapeo puede ser aislado<\/strong>, pero en los casos en los que se produce de forma recurrente, podemos <strong>crear varios problemas a las webs <\/strong>que visitamos:<\/p>\n<ul>\n<li>Aumenta la <strong>dificultad del an\u00e1lisis de los datos reales<\/strong>, ya que hay que habr\u00eda que <strong>identificar y filtrar ese tr\u00e1fico artificial<\/strong>.<\/li>\n<li>El muestreo les <strong>afectar\u00eda en mayor medida,<\/strong> haciendo que el tama\u00f1o de la <strong>muestra fuera menor<\/strong> y por consiguiente los <strong>datos menos precisos<\/strong>.<\/li>\n<li>Si los bots <strong>pueden hacer login en el site<\/strong>, puede afectar a nivel de audiencia, contaminando <strong>los datos de ciertos<\/strong> <strong>segmentos de usuarios<\/strong>.<\/li>\n<\/ul>\n<h1><strong>Algunas aplicaciones empresariales del scraping<\/strong><\/h1>\n<ul>\n<li><strong>Generaci\u00f3n de Leads de posibles<\/strong> clientes, usuarios o<\/li>\n<li>Rastreo de <strong>ofertas laborales<\/strong>.<\/li>\n<li><strong>Rastreo de mercados<\/strong> de segunda mano.<\/li>\n<li><strong>Protecci\u00f3n de marca y producto<\/strong> para fabricantes.<\/li>\n<li><strong>Agregadores de contenido<\/strong>.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>El web scraping consiste en navegar autom\u00e1ticamente una web y extraer de ella informaci\u00f3n. Esto puede ser muy \u00fatil para much\u00edsimas cosas y beneficioso para casi cualquier negocio. A d\u00eda de hoy, no creo que exista una sola empresa de \u00e9xito que no lo haga o que no quiera hacerlo. De hecho, la empresa reina [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":2015,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8,2],"tags":[],"class_list":["post-2013","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-desarrollo","category-marketing-digital"],"_links":{"self":[{"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/posts\/2013","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/comments?post=2013"}],"version-history":[{"count":2,"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/posts\/2013\/revisions"}],"predecessor-version":[{"id":2017,"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/posts\/2013\/revisions\/2017"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/media\/2015"}],"wp:attachment":[{"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/media?parent=2013"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/categories?post=2013"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.grid.cl\/blog\/wp-json\/wp\/v2\/tags?post=2013"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}