asdfasdfasdf

Menyimpan Teks dari Website


Kalau kita ingin menyimpan sebuah website dalam format txt atau ekstraksi clean text only file html di linux, kita bisa gunakan tool w3m, sebuah text-based web browser. Dengan tools ini, kita tidak perlu lagi copy-paste manual tulisan website ke text editor.

Cara Ekstraksi Teks Website

1. Buka Terminal linux (ctrl+alt+t)

2. Install w3m dengan mengetikkan command berikut

sudo apt update
sudp apt install w3m

3. Setelah terinstal, kita bisa mulai extract text only dari website dengan command

w3m -dump URL > output.txt

contoh penggunaan:

ekstraksi text dari website

w3m -dump https://www.idntimes.com/tech/gadget/biaya-service-green-line-samsung-q9t01-00-s5qpm-97m0jh > output.txt

4. Kemudian untuk extract text dari file html, gunakan command berikut ini

w3m -dump path/file/html > output.txt

contoh penggunaan:

w3m -dump namafile.html > output.txt

OlderNewest

Post a Comment