Web bot pythonban?
Egy botot szeretnék készíteni ami meg nyit egy weboldalt és kimásol egy szöveget onnan.
Keresgéltem az interneten de nem találtam semmi olyan parancsot amivel másolni lehetne.
Van ilyen parancs?
Ha nincs akkor mégis, hogy lehetne ezt megcsinálni?
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz1.png)
#10 Engem sok minden hülyeség érdekel, pl. van-e összefüggés egy IMDB értékelése és a letöltések száma között, vagy inkább magyar vagy inkább angol nyelvű zenéket/filmeket töltenek-e le, mennyi ideig "él" egy átlagos torrent. Ezekre írtam egy crawlert, és a letöltött adatokat elemezgettem. Azt nagyon sajnálom, hogy sosem fejeztem be rendesen ezt a projectet. A letöltéseket és az autentikációt wget-tel csináltam. Ezt hívta meg a perl script, majd az adatokat python scriptekkel elemeztem.
Volt egy másik crawler, amit már pythonban írtam, és az meg kindle review-kat töltött le az amazonról. Az egy nagyon érdekes project volt, nagyon sajnálom, hogy a plot-ot letörölték a képfeltöltés.hu-ról. Akkor még amatőr github felhasználó voltam. Itt nagyon professzionálisan, lxml-lel parse-oltam a weboldalakat. Nagyon jó project volt, még volt benne potenciál, de nem volt kedven natural language processinget tanulni.
Meg van egy gyakorikerdesek.hu crawler-em is, de itt köcsögölnek a másodpercenkénti kérések számával. Ha túllépsz egy értéket, akkor bannolják az IPd egy darabig. Meg lehet okosan oldani, de annyira nem édekelt a dolog. Itt azt az elméletemet akartam bizonyítani, hogy az utóbbi években erősen visszaesett az oldal forgalma. Amúgy a kérdések és válaszok időbeli eloszlása nagyon érdekes. Régebben töltöttem le kisebb adatszettet, és vicces látni, hogy különböző topicok más-más időpontban aktívak, ami az eltérő felhasználói populációra utal.
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz1.png)
Ha nem kell bonyolult dolgot csinalni a weboldalon, akkor eleg lehet egy curl/wget es utana kigrep-eled belole ami erdekel. Rengetegszer csinaltam mar ilyesmit ha untam kattingatni.
Egyebkent komolyabb esetben a grep (meg ugy egyaltalan a regexp-alapu koncepciok) nem idealisak erre, XPath-kent en jobbnak latom, raadasul mindenfele bongeszoplugin es lib segit benne.
En PHP-ban szoktam a shell scriptek szintjet meghalado botokat irni. A legkomolyabb az volt, ami linkcsere adatokat gyujtott affiliate oldalakhoz. Aztan volt egy bot, ami egyetemi targyfelvetelt/vizsgajelentkezest csinalt (gyorsan felveszi amint megnyitjak, illetve ha valaki lejelentkezik, gyorsan beugrik a helyere). Ezek mar nem aktivak, jelenleg tozsdei arfolyamokat gyujtok csak bottal. Ja, es ha a kedvenc youtube-os vloggerem uj videot tolt fel, egy script letolti, konvertalja, es feltolti a telefonomra, hogy utazas kozben is hallgathassam (kep nem fontos, csak a hang). Utobbi mondjuk simabash script.
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz0.png)
#11 Na, ez mondjuk érdekes. Az ncore dolog - mióta tulajdonosváltás volt - most annyira nem hozna érdekes adatokat szerintem (túllépték már az egymillió usert? elég híg a felhasználóbázis).
"Meg van egy gyakorikerdesek.hu crawler-em is, de itt köcsögölnek a másodpercenkénti kérések számával. Ha túllépsz egy értéket, akkor bannolják az IPd egy darabig."
Ja, ez megvolt, kb. két sorig jutottam az enyémmel, mikor megláttam a kitiltást be is fejeztem :D
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz2.png)
![*](http://static.gyakorikerdesek.hu/p/vsz1.png)
"Ha túllépsz egy értéket, akkor bannolják az IPd egy darabig."
Mennyi ez az érték?
Kapcsolódó kérdések:
Minden jog fenntartva © 2025, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!