Kezdőoldal » Számítástechnika » Programozás » Website crawling megvalósítása...

Website crawling megvalósítása olyan oldalaknál, ahol csak a szemantikai tartalom egyezik meg?

Figyelt kérdés

Például a nyitvatartás szeretném megszerezni 20 oldalról automatizálva.

De a probléma az, hogy:


Sehol sincs ugyanolyan helyen. (pl. egy standard szövegdobozban, amit egyből megtalálni az algoritmus)


Nem minden helyen van ugyanolyan szövegkörnyezetben, amiről következtetni lehet. Valahol "nyitvatartás" körül kell keresni az időtartamokat, valahol a "ekkor látogathatsz meg minket" mondat körül. (szóval értitek)


Meg ugye az időtartam se mindig a nyitvatartást jelenti, hanem például a telefon ügyfélszolgálat elérhetőségét.


Szóval értitek.


Hogyan foghatnék neki egy ilyen problémának? Neurális hálót be lehetne tanítani valahogy? Vagy az overkill lenne?


2018. jún. 6. 16:38
 1/2 anonim ***** válasza:

A neurális hálónál mindenképpen jobb módszer lenne egy (vagy esetleg több) reguláris kifejezést írni, ami illeszkedik a nyitvatartás soraira. Lehet, hogy sokféle lehetőséget kellene számba venned a formáját illetően, de még mindig kevesebb, mint betanítani erre a gépet.


Vagy megkeresni a DOM fában a legmélyebben lévő elemet, amelyben szerepel a hét összes (~legtöbb) napjának neve vagy rövidítése.

2018. jún. 6. 17:13
Hasznos számodra ez a válasz?
 2/2 anonim ***** válasza:
100%
Ha csak 20 oldalról van szó, akkor leggyorsabb, ha kézzel kimásolod. Ezt nem érdemes automatizálni, még a betanításhoz is kevés.
2018. jún. 6. 17:49
Hasznos számodra ez a válasz?

Kapcsolódó kérdések:




Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu

A weboldalon megjelenő anyagok nem minősülnek szerkesztői tartalomnak, előzetes ellenőrzésen nem esnek át, az üzemeltető véleményét nem tükrözik.
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!