Kalau kita ingin menyimpan sebuah website dalam format txt atau ekstraksi clean text only file html di linux, kita bisa gunakan tool w3m, sebuah text-based web browser. Dengan tools ini, kita tidak perlu lagi copy-paste manual tulisan website ke text editor.
Cara Ekstraksi Teks Website
1. Buka Terminal linux (ctrl+alt+t)
2. Install w3m dengan mengetikkan command berikut
sudo apt update
sudp apt install w3m
3. Setelah terinstal, kita bisa mulai extract text only dari website dengan command
w3m -dump URL > output.txt
contoh penggunaan:
w3m -dump https://www.idntimes.com/tech/gadget/biaya-service-green-line-samsung-q9t01-00-s5qpm-97m0jh > output.txt
4. Kemudian untuk extract text dari file html, gunakan command berikut ini
w3m -dump path/file/html > output.txt
contoh penggunaan:
w3m -dump namafile.html > output.txt

Post a Comment