Html táblázatból kivett érték fájlnévbe?
Meg lehet azt csinálni és hogyan, hogy ha képfájlok neveibe szeretném beírni egy html fájlból adatot?
Példa
Van egy kép fájl aminek van egy sorszáma mondjuk 112233_akarmi.jpg
egy html fájlban, táblázatban meg benne van az 112233 mellett hogy lilaköd
Hogyan lehetne a táblázatban a sorszáma mellől kivenni, hogy lilaköd és hozzáfűzni a képfájl nevéhez?
Van erre program vagy csak programozással lehet ilyet csinálni?
Célprogramot nem igazán ismerek rá, erre valamilyen szkriptet vagy valamilyen programot írnék:
1. Az adott könyvtárban ki kell listázni a képek neveit egy tömbbe.
2. Az adott HTML állományt be kell olvasni, és a táblázat-cellák értékeit egy két dimenziós tömbbe belerakni.
3. Végig kell menni az állományneveket tartalmazó listán (#1).
4. Minden egyes állománynevet (amit a #3-as ciklusban kaptunk) meg kell keresni a két dimenziós tömb (#2) megfelelő oszlopában. Ha találat van, akkor ki kell egészíteni az állomány nevét a két dimenziós tömb másik megfelelő oszlopával.
"nézem a html2text bin programot windowshoz, próbálkoztam linuxnál cat meg grep-pel"
Ezek szerint a platform lényegtelen. Linux esetén egy kicsit szerencsésebb - ott van alapból a bash, könnyedén felrakható a Pyton, telepíthető a node.js, stb...
A leginkább kérdéses a HTML-dokumentum feldolgozása.
A HTML-dokumentumtól függ, hogy megoldható egy szimpla reguláris kifejezéssel - akár egy kis sed-del vagy awk-szkripttel - vagy valami komplexebb szkript kell hozzá (Pythonhoz például van egy csomó HTML-parser modul - például ott a HTMLParser, a Beautiful Soup vagy a lxml.html).
Jó lenne, ha mutatnál példát a HTML-állományra illetve a könyvtárstruktúrára (vannak-e alkönyvtárak, vagy a képek egy könyvtárba vannak zsúfolva).
Ömlesztve vannak a fájlok, ráadásul van, hogy nincs kiterjesztése a html fájlnak.
Odáig jutottam hogy kiírom a html2text-tel, grep-pel szűröm és ki tudom íratni ami nekem kellene táblázatból. De például ha két érték kellene a táblázatból, azt már nem tudom leszűrni.
Találtam egy ilyen progit
ez kiszedi a táblázatokat akár minta alapján sorokat is
és multi platformos
MEg itt egy pyrhon
csak nekem hibát ír ki
8 sor import pandas
\html_to_csv.py", line 8, in <module>
import pandas
ImportError: No module named 'pandas'
Linuxnál a python-pandas vagy a python3-pandas csomagban megtalálható.
Illetve Pythonban ott a pip modulkezelő.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!