Da den første store søketjenesten, Alta Vista, ble lansert i 1995, var det mange som oppdaget at verden slett ikke var så stor som de trodde. All informasjonen som lå ute på nett ble med et meget lett tilgjengelig. Et kjapt søk på navn gir for eksempel mange oppslag som en kanskje ikke alltid er like fornøyd med at kommer opp.
Heldigvis hadde et utvalg fremsynte personer sett at det å ikke bli listet opp på slike søk og ved andre tjenester måtte være mulig og alt i 1994 hadde det blitt opprettet en protokoll for nettopp dette. Denne protokollen heter populært robots.txt, eller Robots Exclusion Standard, og er en enkel kommandolinje som gir beskjed til søkemotorer og andre tjenester at de ikke skal inkludere dine nettsider i sine oppslag.
Slik fungerer robots.txt
I praksis fungerer dette ved at du legger inn en egen kode på dine nettsider, og du trenger slett ikke være utdannet utvikler for å få til dette. I alle nettsider er det et HTML-dokument som ligger til grunn for hva du ser på skjermen. Når søketjenestene henter inn informasjon går de gjennom dette for å hente ut stikkord og samle informasjon for å gi sine kunder best mulig søketreff. Denne koden kan du selv legge inn på dine nettsteder for å unngå at disse listes i søketjenestene.
Om du selv har full kontroll over ditt nettsted gjøres dette i praksis ved at du oppretter et nytt dokument i enten Notepad (Windows) eller TextEdit (Mac). I dette dokumentet skriver du følgende:
User-agent: * Disallow: /
Deretter lagrer du dette dokumentet som «robots.txt» og laster det opp på toppnivået av ditt domene. Om ditt domene for eksempel heter www.test.no, så skal denne filen legges opp som en ny side som vil få adresselinjen www.test.no/robots.txt. Når søkemotorene går gjennom din side vil denne filen da gi beskjed om at de ikke skal liste dine sider i det hele tatt.
Det er også fullt mulig å be søkemotorene kun utelate kun noen av dine nettsider fra sin indeksering. Du kan også spesifisere hvilke søkemotorer du ønsker at skal liste opp dine sider og hvilke du vil unngå. For full oversikt over kommandoene du kan benytte kan du se på denne nettsiden.
Det finnes også en rekke verktøy på nettet som lar deg enkelt sjekke din egen, og andres robots.txt filer. For eksempel: https://www.websiteplanet.com/nb/webtools/robots-txt/
Hva om jeg ikke har tilgang til serveren?
For å kunne gjennomføre det ovenstående kreves det at du har full tilgang til serveren som hoster ditt domene. Det er det ikke alltid en har. Det er likevel mulig å be søkemotorene holde seg unna, men da er du avhengig av hva slags muligheter din tjenesteleverandør tilbyr. Norske Blogg.no gir deg for eksempel mulighet til å huke av en klamme om du ikke vil at bloggen din skal listes av søkemotorer. Denne funksjonen kan du på samme måte også skru på hos VG blogg og andre tjenesteleverandører. Som oftest finner du denne muligheten under «alternativer» eller «innstillinger» på din profilside hos tjenesteleverandøren.
Hos Googles Blogger får du også samme mulighet. Her trykker du deg inn på instillinger -> grunnleggende. Under grunnleggende ligger personvern, trykk rediger og velg nei på “La søkemotorer finne bloggen?”.
Om siden tillater at du kan legge inn kode for å kontrollere tilgangen til bloggen din direkte, og tillater HTML-koding. Kan du legge til kodesnutten her: <meta name="robots" content="noindex, nofollow">
Merk at koden robots.txt ikke begrenser folks adgang til nettsiden, kun at den ikke dukker opp ved søk på søkemotorer. For å sperre tilgang til nettsiden må du heller sette på adgangsbegrensning via passord, eller spesifisere at kun utvalgte IP-adresser får tilgang til siden.