A keresők találati oldalain elfoglalt előkelő (első) helyezés nagy forgalmat és így üzleti lehetőséget biztosít az adott weboldal üzemeltetőjének. Emiatt egyes weboldal üzemeltetők olyan technikákat (spamdexing) alkalmaznak, amelyek a felhasználók számára semmiféle többletszolgáltatást nem nyújtanak, egyetlen céljuk, hogy a céloldal helyezését a kereső rangsorokban manipulálják.
Az előadás során bemutatjuk a leggyakrabban alkalmazott manipulációs módszereket, illetve a Web spam szűrésére világszerte tett erőfeszítéseket. Külön kitérünk a HTTP és a HTML protokollok által adott lehetőségekkel (ágens azonosítás, nehezen feldolgozható script tartalmak, stb.) való visszaélési lehetőségekre.
keresőrendszerek, manipuláció, gépi tanulás
Benczúr András 2007-ben szerezte Ph.D. fokozatát a Massachusetts Institute of Technology-n alkalmazott matematikából. Azóta az MTA SZTAKI Informatika Kutató Laboratórium munkatársa. 2000-ben alapította a laboron belül az Adatbányászat és Webkeresés Kutatócsoportot, amelyben ma 3 vezető kutató, 3 posztdoktor és számos Ph.D. hallgató tevékenykedik és fejleszt. A kutatócsoport eredményei egyedi megoldásokat biztosítanak extrém méretű rendszerek (nagy belső hálózatok, nagyforgalmú Web-portálok), illetve a magyar nyelvű információkeresés számára. A csoport hazai és nemzetközi együttműködésben szociális hálózatok, biztonsági incidensek és ügyféladatok elemzését, illetve a Web spam szűrését végzi; eredményeit a 2006/07 akadémiai évben Yahoo! Faculty Research Grant támogatással ismerték el, illetve a KDD Cup 2007 győztes megoldása is a csoport nevéhez fűződik. A végzett doktoranduszok közül már öten dolgoznak a legnagyobb Internetes keresőcégek (Google, Yahoo) kutató-fejlesztő központjaiban.
Az alábbiakban a konferencia tematikus, ezen belül alfabetikus rendbe szedett programja olvasható. Két (külön jelölt) előadás kivételével minden előadásunk magyar nyelvű. Az előadások négy párhuzamosan futó sávban kerülnek bemutatásra.