Hvordan kan jeg se, om folk skraber data fra mit websted?


Svar 1:

Ja, identificering af søgemaskiner og andre agenter, der besøger dit websted, er ikke raketvidenskab, men det kan være en omhyggelig proces med en reel mulighed for at mislykkes.

Serverloggen indeholder typisk en en-linjepost for hver "hit" på dit websted, hvor et "hit" i denne sammenhæng normalt er en anmodning om en HTML-side, en billedfil, en stilark (.css) fil eller uanset hvad du betjener fra dit websted.

Hver post indeholder mange felter, men de der er interessante her er

  • IP-adressen eller DNS-adressen. Dette er adressen på den maskine, der besøgte.
  • Den henvisende URL. I princippet er dette URL'en til den side, som brugeragenten var på før. Ofte er det tomt og meget lejlighedsvis er det forfalsket at annoncere for en URL, for at tiltrække den nysgerrige webmaster og ende som et hyperlink, hvis loggen nogensinde er offentliggjort online.
  • Brugeragentidentifikatoren. I princippet identificerer dette edderkoppen / browseren / webbot ved navn. Nogle gange er en kontakt-URL eller e-mail-adresse inkluderet. Dette felt er helt valgfrit og kan forfalskes (f.eks. Har Opera mulighed for at ligne IE for at give det adgang til websteder, der ellers ikke genkender det). Jeg så en gang en agent, der ændrede dette navn for hver ny anmodning, den udstedte (formodentlig som en form for camouflage).

er det et menneske? er det en edderkop? hvordan fortæller jeg forskellen?

Mennesker, edderkopper og webbots har forskellige mønstre for gennemsyn.

  • En menneskelig browser læser kun et par sider i løbet af få minutter (selvom de muligvis kommer tilbage om en times tid). De sider, de læser, knyttes ofte sammen (medmindre de bruger din websteds søgemaskine eller bliver henvist udefra).
  • En edderkop vil normalt have samlet en liste over sider på dit websted og besøger disse mere eller mindre tilfældigt (undtagen under deres første besøg, når de ser ud til at følge linkene). Velopdragne edderkopper læser "robots.txt" for at se, hvad de kan gøre med dit websted, og vil kun læse et par sider ad gangen for ikke at overbelaste dit websted.
  • "Webbots" betyder enhver anden webrobot. Disse vil variere i adfærd afhængigt af den opgave, de er sat. Webstedskopimaskiner vil gribe stort set alle dine sider, som de er sammenkoblet, på meget kort tid. På den anden side kan linkcheck kun besøge en eller to sider hver dag eller deromkring.

Hvordan finder jeg ud af, hvad en bestemt agent er?

Webbots

kan komme fra den samme IP-adresse hver gang (som normalt angiver, at de er en form for webbaseret service), eller fra en brugers ISP-IP-adresse (angiver, at det er et stykke software, der kører på en brugermaskine).

Brugeragenter, der bliver drevet af mennesker

, kommer normalt fra en række IP-adresser, der ofte har en DNS-opslag, der kan genkendes som en ISP.


Svar 2:

Som andre svarere har indikeret, kan du analysere dine serverlogfiler manuelt. Dette er imidlertid ikke en meget nøjagtig metode.

Bots bliver stadig mere sofistikerede. Mange af dem er meget gode til at efterligne menneskelige trafikmønstre. Og selvom du kan identificere en agent som en bot, kan du normalt ikke fortælle, om det er en skraberbot, en hackerbot eller en anden form for bot.

At nøjagtigt identificere forskellige typer bots kræver specialkendskab. Virksomheden, jeg har oprettet, DataDome, leverer dette som en SaaS-løsning. Vores teknologi identificerer og klassificerer al indkommende trafik til dit websted og giver dig mulighed for at blokere de bots, du ikke ønsker at få adgang til.

Jeg vil gerne invitere dig til

prøve det

gratis (det er meget nemt at installere). Selv hvis du ikke ønsker at abonnere, viser instrumentbrættet, du får adgang til i prøveperioden, om skraberbots er aktive på dit websted, og hvem de er. Held og lykke!