Kezdőoldal » Számítástechnika » Programozás » Website crawling megvalósítása...

Website crawling megvalósítása olyan oldalaknál, ahol csak a szemantikai tartalom egyezik meg?

Figyelt kérdés

Például a nyitvatartás szeretném megszerezni 20 oldalról automatizálva.

De a probléma az, hogy:

Sehol sincs ugyanolyan helyen. (pl. egy standard szövegdobozban, amit egyből megtalálni az algoritmus)

Nem minden helyen van ugyanolyan szövegkörnyezetben, amiről következtetni lehet. Valahol "nyitvatartás" körül kell keresni az időtartamokat, valahol a "ekkor látogathatsz meg minket" mondat körül. (szóval értitek)

Meg ugye az időtartam se mindig a nyitvatartást jelenti, hanem például a telefon ügyfélszolgálat elérhetőségét.

Szóval értitek.

Hogyan foghatnék neki egy ilyen problémának? Neurális hálót be lehetne tanítani valahogy? Vagy az overkill lenne?

2018. jún. 6. 16:38

1/2 anonim

válasza:

A neurális hálónál mindenképpen jobb módszer lenne egy (vagy esetleg több) reguláris kifejezést írni, ami illeszkedik a nyitvatartás soraira. Lehet, hogy sokféle lehetőséget kellene számba venned a formáját illetően, de még mindig kevesebb, mint betanítani erre a gépet.

Vagy megkeresni a DOM fában a legmélyebben lévő elemet, amelyben szerepel a hét összes (~legtöbb) napjának neve vagy rövidítése.

2018. jún. 6. 17:13

Hasznos számodra ez a válasz?

2/2 anonim

válasza:

Ha csak 20 oldalról van szó, akkor leggyorsabb, ha kézzel kimásolod. Ezt nem érdemes automatizálni, még a betanításhoz is kevés.

2018. jún. 6. 17:49

Hasznos számodra ez a válasz?

Kapcsolódó kérdések:

C nyelvben, hogy lehet egy fájl tartalmát kiolvasni a legegyszerűbben?

C# . Txt tartalom cseréje hogyan? Többi lent.

Hogy lehet txtből, sort kimásolni py vagy shell szkripttel? A sorok száma és a szerkezete mindig ua. A sorok tartalma viszont változik. Nem az egész sort szeretném...

Hogy tudok php-ban megoldani, hogy a $tartalom változóba táblázatban tudjam elhelyezni az értékeket, ami egy formázott email lenne?

[C++] Polinom struktúra megvalósítása?

HTML levelet kell kiküldenem beillesztett képpel, amit az olvasó azonnal meg tud nyitni, nem blokkolja semmi a külső tartalmat, stb. Hogyan kell ezt megoldani?...

Számítástechnika főkategória kérdései »

Számítástechnika - Programozás kategória kérdései »

A weboldalon megjelenő anyagok nem minősülnek szerkesztői tartalomnak, előzetes ellenőrzésen nem esnek át, az üzemeltető véleményét nem tükrözik.
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!