Valamilyen scripttel le lehet tölteni wikipédia oldal pdf változatát? De azt a pdf-et, amit a Wikipédia maga generál!
#3:
Jó-jó, de Kérdező nyilván programból akarja elérni ugyanezt. Gondolom, meg kéne nézni, hogy a PDF-kérésre milyen linket ad vissza, és annak alapján a program is megtalálná.
Na ez azért nem olyan egyszerű dolog. Én személy szerint Selenium Webdriverrel csinálnám (jó, igazatok van, ez eredetileg weblapok tesztelésére lett kitalálva, de nekünk most megteszi). Nagyon egyszerűen működik a dolog, azt kell leprogramoznod, hogyan kattintgatod végig az oldalt és hogyan nézel meg rajta dolgokat. Persze ennek van igényesebb változata is, de ha gyorsan kell valami, erre jó lesz.
A link ugyanis úgy működik, hogy ha rákattintasz, eljutsz egy másik oldalra, ahol kijelzi, hol tart a folyamat százalékban. Amint megjelenik a "Fájl letöltése" link, meg kell szerezned a linkjét. És eddig tartott a Selenium-os móka, hogy ezt a linket megszerezzük.
Innentől egy parancssoros progival, pl. wget vagy cURL, le tudod tölteni. És itt ki is képeznek C# nyelven, ha tudsz egy kicsit is angolul:
https://www.youtube.com/watch?v=mluLgBywW0Y&list=PL6tu16kXT9..
A Selenium-hoz kell egy telepített és támogatott böngésző is tudtommal, ami szerintem fölösleges. Bármelyik programnyelvben le lehet kérni HTTP-n az oldalt, parszolod a HTML kódot, kiszeded a PDF linket, aztán azt is letöltöd. Ezt utána futtathatod böngésző nélkül, akár GUI nélküli szerveren is.
Sőt, akár shell scripttel is megoldható, wget/curl + grep + awk parancsokkal. Ízelítőnek: [link]
"parszolod a HTML kódot, kiszeded a PDF linket"
Hát azt bajosan. In time generálódik a link. De a megközelítés amúgy jó, tényleg így kell, kellene.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!