Semalt: Bagaimana Menggunakan Python untuk Mengikis Laman Web?

Data memainkan peranan penting dalam penyiasatan, bukan? Ini boleh membawa kepada cara baru untuk melihat sesuatu dan mengembangkan pandangan lain. Perkara yang paling malang ialah data yang anda cari biasanya tidak tersedia. Anda boleh mencarinya di Internet, tetapi mungkin tidak dalam format yang boleh dimuat turun. Sekiranya demikian, anda boleh menggunakan teknik mengikis web untuk memprogram dan mengumpulkan data yang anda perlukan.

Terdapat beberapa pendekatan mengikis dan bahasa pengaturcaraan yang dapat membantu melalui proses ini. Artikel ini akan membimbing anda tentang cara menggunakan bahasa python untuk membatalkan laman web. Anda akan mendapat banyak pandangan mengenai operasi laman web. Anda juga akan memahami bagaimana pembangun menyusun data di laman web mana pun.

Titik permulaan terbaik adalah memuat turun dan memasang Anaconda Python Distribution pada mesin pengkomputeran anda. Anda juga boleh mengambil beberapa tutorial mengenai asas-asas bahasa pengaturcaraan ini. Tempat terbaik untuk memulakannya ialah Codecademy terutamanya jika anda tidak mempunyai idea dalam bidang ini.

Panduan ini akan menggunakan laman penyenaraian Polk Country untuk tahanan. Kami akan membimbing anda bagaimana menggunakan skrip Python untuk mengekstrak senarai banduan dan mendapatkan beberapa data seperti kota tempat tinggal dan perlumbaan bagi setiap tahanan. Seluruh skrip yang akan kami sampaikan disimpan dan dibuka di GitHub. Ini adalah salah satu platform dalam talian yang popular yang membolehkan perkongsian kod komputer. Kod-kodnya mempunyai senarai komen yang panjang yang dapat membantu anda.

Semasa mengikis mana-mana laman web, alat pertama yang dicari adalah penyemak imbas web. Sebilangan besar penyemak imbas akan memberi pengguna alat pemeriksaan HTML yang membantu mengangkat palang mesin dan memahami struktur halaman. Cara anda mengakses setiap alat berbeza dari satu penyemak imbas yang lain. Namun, andalannya adalah 'lihat sumber halaman, dan anda boleh mendapatkannya dengan mengklik kanan halaman secara langsung.

Semasa anda melihat sumber HTML halaman, disarankan untuk menyenaraikan dengan terperinci perincian pautan ke banduan dalam baris jadual. Langkah seterusnya adalah menulis skrip yang akan kita gunakan untuk mengekstrak maklumat ini. Dua pakej Python yang akan kami gunakan dalam proses mengangkat berat adalah Sup dan Permintaan Cantik. Pastikan anda memasangnya sebelum anda mula menjalankan kodnya.

Skrip mengikis web akan melakukan tiga perkara. Ini termasuk memuatkan halaman penyenaraian dan pengekstrakan pautan ke halaman perincian, memuat setiap halaman perincian dan mengekstrak data, dan mencetak data yang diekstrak bergantung pada bagaimana ia disaring seperti kota tempat tinggal dan bangsa. Setelah anda memahami perkara ini, langkah seterusnya adalah memulakan proses pengkodan dengan menggunakan Sup dan Permintaan Cantik.

Pertama, muatkan halaman penyenaraian banduan secara logik menggunakan URL request.get dan kemudian gunakan sup yang indah untuk membungkusnya. Selepas itu, kami mengekstrak pautan ke halaman perincian dengan melingkari setiap baris. Setelah menguraikan butiran narapidana, langkah seterusnya adalah mengekstrak nilai jantina, umur, bangsa, masa tempahan, dan nama ke kamus. Setiap narapidana akan mendapatkan kamus, dan semua kamus akan ditambahkan ke senarai banduan. Akhirnya, perhatikan nilai perlumbaan dan bandar sebelum akhirnya anda mencetak senarai anda.

mass gmail