Programozás házi feladathoz kérek segítséget?
Egy weboldalból ki kell gyűjteni a linkeket.
Bemeneti adat pl: www.pelda.hu
Kimenet: A talált linkek:
valami.hu
akarmi.hu
A használható eszközök: linux shell script.
Milyen eszközökkel, hogyan érdemes nekiállni?
Lynx? wget? + sed?
Nem vagyok gépközelébe úgyhogy nem tudom kipróbálni. NEkem ez jutott eszembe.
wget CÍM.hu
CíM.html | grep www > linkek.txt
Kimaradt
cat CíM.html | grep www > linkek.txt
Én sem tudom kipróbálni, szóval nem esküszöm, de a grep-pel az a gond, hogy sorokat kezel. Ha a html oldal egyetlen sorból áll (nincsenek benne sortörések, vagy nem ott, ahol illene), akkor elég zanza eredményt ad.
Én a "href=" szöveg alapján valamilyen regex kereséssel próbálnám kiszedni a linkeket. "Awk", vagy talán "sed" is működhet. A regex-be bele lehet szőni a kacsacsőr keret is, szóval tetszőleges pontosan meg lehet adni magát a linket.
A megoldás "elfogadott" verziója shell script és egy kis Pascal program, ami a "href=" és az első szóköz közötti részt vadássza ki.
Meg van a "megfelelt" köszönöm
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!