Cuil continua a far parlare di se, in negativo …
Cuil, il motore di ricerca che dovrebbe fare concorrenza a Google continua a far parlare di se negativamente. TechCrunch introduce un articolo in cui Cuil non si rende responsabile di immagini riservate ad un pubblico adulto e neppure di affermazioni “campate in aria” (un numero di pagine indicizzate maggiori di Google ..), Cuil è Reo d’aver portato diversi siti offline per il suo ancor inefficiente crawler.
Una prima segnalazione è quella sui forum di “The Admin Zone” dove scopriamo che (nome in codice twiceler) Cuil ha consumato 2 GB di banda mensili ad un sito generando in tutto 70000 visite, il responsabile non ha potuto far altro che aggiungere al suo htaccess un “deny from 38.99″.
Proseguendo la lettura assistiamo al commento di un utente che rappresenta lo stato d’animo di chi si è visto “scandagliare” il sito dal loro Crawler:
Experimental Robot? Experimenting in what? The bot was logged going around IP blocks in .htaccess by just rotating to another IP address. They list 22 different IP addresses on their site.
These guys are saying on another site that they will obey robots.txt after 7 days? WTF, the site says the owners are Ex Google Folks. So, they know very well what they are doing. They have no search capability for a human visitor to search their results… So, they offer the webmaster no traffic at all that is legitimate visitors. Why are they beating the heck out of our sites from 22 servers that autohack around an IP block and ignore a robots.txt?
If you email the admin, they will stop visiting. But what kind of protocol is that?? This should be shut down.
La pagina successiva non è di certo “Rose e Fiori”, un utente ha controllato i logs ed ha constatato che nel suo sito Cuil occupava inizialmente uno “Share” del 6% per passare in breve tempo al 15-18%.
Il massimo è raggiunto dall’articolo “How CUIL Lost Me as a Customer Long Before They Launched” dove si approfondisce il metodo di scansione di Cuil e tentativi di scansione di url non validi come ad esempio
http://www.madstatter.com/06/07/07/07/07/06/06/…/scoring.php
L’utente del sito internet, accortosi degli errori commessi dal crawler ha inviato una email a Twiceler dicendo:
Hi Jim,
I see your Twiceler robot crawling my site (www.madstatter.com) which is all fine and dandy, except that it is creating mal-formed addresses which all return 404 errors.
For example, it is trying to find this page:
http://www.madstatter.com/06/07/07/07/07/06/…/07/07/scoring.php…which doesn’t exist of course. Perhaps there is something goofy with the logic that parses each page’s links and creates new addresses to crawl? For example, I use a lot of “../” and “./” references in my href links which tend to throw off some url-parsing robots (that is not intentional, it is just the way it is).
I am afraid at this rate your bot may be creating an infinite number of mal-formed addresses to crawl. I do not with to block your bot, but I don’t want a whole ton of garbage addresses in my log files either
![]()
Thank you for looking into this.
-Chad
La risposta dello Staff di Cuil non si è fatta attendere ma è sembrata alquanto elusiva… :
Dear Chad,
Twiceler is the crawler that we are developing for our new search
engine. It is important to us that it obey robots.txt, and that it not
crawl sites that do not wish to be crawled. If you wish I will be
glad to add your site to our list of sites to exclude.Like all startups, we hope to launch sooner rather later, but exactly
when that will be, I don’t know. Watch our web site (www.cuill.com) for
the announcement.Recently we have seen a number of crawlers masquerading as Twiceler,
so please check that the IP address of the crawler in question is one of
ours. You can see our IP addresses at http://cuill.com/twiceler/robot.htmlYou may wish to add a robots.txt file to your site (I notice you don’t
have one). That is the standard mechanism for controlling robot access and
behavior. You can read about it at
http://www.robotstxt.org/wc/exclusion-admin.html
and there a simple generator of the file here
http://www.mcanerin.com/EN/search-engine/robots-txt.aspIncorrectly formed URLs are usually the result of links we have
picked up from earlier crawls - usually from some other unrelated site
that has a stale or mangled link to yours. We have no way of knowing
their validity until we try to access them.I apologize for any inconvenience this has caused you and please feel
free to contact me if you have any further questions.Sincerely,
James Akers
Operations Engineer
Cuill, Inc.
Queste sono solo un paio di segnalazioni di utenti che si sono accorti dell’insolita attività di Cuil, non ci sono dubbi che il problema sia più esteso di quanto si pensi….

Invio articolo tramite Email
Lascia un Commento!