Eksplorasi Data Zero To A oleh Peter Thiel – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: sk7

Pemrosesan Bahasa Alami

“Pemikiran yang brilian jarang terjadi, tetapi keberanian bahkan lebih sedikit daripada kejeniusan.” – Zero to A oleh Peter Thiel.

Dikenal sebagai pedoman awal startup dan kurang-begitu sebagai manifesto politik, Zero to 1 oleh Peter Thiel membawa Anda dalam perjalanan dari gelar Sarjana Hukum di Stanford menuju kesuksesan utamanya di PayPal dan seterusnya. Thiel menekankan pentingnya diferensiasi produk dalam masyarakat worldwide. Dia menunjukkan perimeter keuntungan yang tipis dengan menganalisis pasar restoran Manhattan yang sangat kompetitif dan memuji Monopoli yang mahakuasa dalam bisnis. Dia memangkas sistem pendidikan untuk mematikan rasa ingin tahu. Dia membuat konsep-konsep besar begitu mudah dicerna sehingga di akhir buku Anda ingin bangun dan mulai bertukar pikiran tentang ide-ide bisnis baru.

Setelah menyelesaikan fenomena buku bisnis, saya memutuskan untuk menerapkan analisis teks dan prinsip NLP untuk menganalisis Zero to One. Saya membeli versi elektronik bukunya dan mengubahnya menjadi document teks. Menganalisis 40.867 kata dan 207.012 karakter (tanpa spasi), inilah yang saya temukan:

Alat yang digunakan: Python 3.9 di laptop Jupyter

Perpustakaan yang digunakan: NLTK, Gensim, PyLDAvis & Spacy

Langkah-langkah kunci: Pemrosesan Ulang Teks, Tokenisasi, Lemmatisasi & Pemodelan Topik

Pemrosesan awal:

Saya menggunakan perpustakaan Regex untuk menghapus document teks dari digit dan karakter baris baru. Saya kemudian menggunakan perpustakaan NLTK untuk membuat token, menghapus kata-kata berhenti, dan menyesuaikan data. Langkah preprocessing ini penting untuk analisis saya.

Kata / Awan Kata Paling Umum:

Menemukan kata-kata yang paling umum berguna dalam menetapkan kecepatan untuk sisa analisis. Meskipun tidak ada kesimpulan yang dapat ditarik dari langkah ini saja, saya ingin menemukan 20 kata paling umum di buku ini sebagai batu loncatan untuk penyelidikan di masa mendatang. Saya menggunakan fungsi Counter dari perpustakaan koleksi untuk membuat tupel dari kata-kata yang paling sering menggunakan daftar korpus sebelumnya telah diproses sebelumnya. Seperti yang terlihat dari kata cloud dan grafik batang, ide gambaran besar seperti ‘perusahaan’, ‘orang’, dan ‘bisnis’ diulangi di seluruh buku ini. Menariknya, ‘monopoli’ bahkan tidak ada di 20 besar.


Bigram:

Pada langkah ini, saya menggunakan fungsi CountVectorizer dari perpustakaan sklearn untuk mengubah teks mentah menjadi vektor renggang rentang ngram (two, two ). Saya kemudian menggunakan metode transformasi untuk membuat kamus dari korpus. Setelah itu, saya memplot grafik untuk melihat bigram yang paling sering muncul di buku.

Hasil dari bigram dengan jelas menunjukkan pengabdian Peter Thiel pada Power Law. Menariknya, grafik tersebut juga menyoroti pengaruh teknologi book dan Silicon Valley dalam buku tersebut. Ini masuk akal karena, di sepanjang bukunya, Thiel menegaskan kembali pentingnya menciptakan produk yang berbeda dan mendorong pembaca untuk menciptakan nilai dengan menggunakan teknologi. Meskipun, tidak jelas apakah hasil ini merupakan anekdot dari masanya di PayPal atau mencerminkan ideologinya tentang teknologi. Selain itu, ‘perusahaan teknologi bersih’ disebutkan 20 kali. Ini menarik karena menimbulkan pertanyaan apakah Peter Thiel percaya teknologi bersih harus menjadi fokus utama para pendiri saat ini.

Pengakuan Entitas Bernama:

Bagian dari analisis ini lebih untuk mencari tahu perusahaan dan pendiri terkenal mana yang dirujuk Thiel dalam buku tersebut. Dengan memuat pustaka en_core_web_sm dari Spacy dan menggunakan fungsi NLP pada daftar tokenized corpus, saya dapat menggunakan fungsi Counter untuk mengekstrak organisasi paling umum dan orang-orang yang disebutkan dalam buku (saya memeriksa untuk melihat apakah tag dokumennya’ORG’ untuk organisasi atau’PERSON’ untuk orang). Tidak mengherankan, Thiel berbicara tentang Apple dan Bill Gates sebagai pilar perusahaan dan pendiri yang sukses. Mengulangi kekagumannya pada Apple, Thiel menyebutkan Apple hampir sama dengan saat dia menyebut PayPal (saya berasumsi bahwa setiap kali eBay disebutkan dalam dokumen ini, Thiel mengacu pada ceruk pasar awal PayPal: metode pembayaran elektronik yang akan digunakan di eBay. Menambahkan berapa kali eBay dan PayPal disebutkan, Anda mendapatkan 26dan yang berarti 1 lebih banyak dari frekuensi penyebutan Apple).


Pemodelan Topik:

Untuk Pemodelan Topik, saya menggunakan pyLDAvis dan LdaMulticore dari perpustakaan gensim untuk menemukan kata kunci yang muncul bersamaan dan menemukan topik tersembunyi di buku. DataCamp memberikan tutorial yang berwawasan dan mudah digunakan untuk menemukan jumlah topik dalam dokumen tertentu. Setelah menemukan jumlah topik yang best, saya membuat model Latent Dirichlet Allocation (LDA) dan menyiapkan visual untuk melihat hasil saya. Topik 1 dengan sempurna menggambarkan tema yang paling berpengaruh dalam buku ini. Dengan referensi ke’startup’,”entrepreneur’,’ dan’monopoli’, bagian dari analisis ini dengan sempurna merangkum ideologi Peter Thiel dalam Zero to one.

Setelah membaca buku itu, saya mendapati diri saya merefleksikan topik-topik berbeda yang saya kumpulkan dari prasangka saya sendiri. Analisis teks memberikan wawasan yang berguna tentang beberapa poin penting dari Nol ke Satu. Menggunakan teknik analisis information untuk mengeksplorasi tema buku memberi saya pemahaman yang lebih lengkap tentang banyak ide yang berbeda.

Bagi yang tertarik, Anda dapat menemukan repositori kode di GitHub saya: Zero to One.

Eksplorasi Data Zero To A oleh Peter Thiel awalnya diterbitkan di Limit AI on Moderate, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI

Leave a Reply