Website crawling megvalósítása olyan oldalaknál, ahol csak a szemantikai tartalom egyezik meg?
Például a nyitvatartás szeretném megszerezni 20 oldalról automatizálva.
De a probléma az, hogy:
Sehol sincs ugyanolyan helyen. (pl. egy standard szövegdobozban, amit egyből megtalálni az algoritmus)
Nem minden helyen van ugyanolyan szövegkörnyezetben, amiről következtetni lehet. Valahol "nyitvatartás" körül kell keresni az időtartamokat, valahol a "ekkor látogathatsz meg minket" mondat körül. (szóval értitek)
Meg ugye az időtartam se mindig a nyitvatartást jelenti, hanem például a telefon ügyfélszolgálat elérhetőségét.
Szóval értitek.
Hogyan foghatnék neki egy ilyen problémának? Neurális hálót be lehetne tanítani valahogy? Vagy az overkill lenne?
A neurális hálónál mindenképpen jobb módszer lenne egy (vagy esetleg több) reguláris kifejezést írni, ami illeszkedik a nyitvatartás soraira. Lehet, hogy sokféle lehetőséget kellene számba venned a formáját illetően, de még mindig kevesebb, mint betanítani erre a gépet.
Vagy megkeresni a DOM fában a legmélyebben lévő elemet, amelyben szerepel a hét összes (~legtöbb) napjának neve vagy rövidítése.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!