Flamboyan


Dgwozdz / HN_SO_analysis

Atau, karena situasi semacam itu juga mungkin, variabel yang signifikan memang memengaruhi default tetapi Anda tidak memahami ketergantungan fenomena tersebut. Variabel-variabel tersebut dapat mencakup informasi lain, tidak secara langsung tersirat dengan sendirinya, sehingga data yang Anda masukkan ke dalam model Anda secara statistik signifikan. Anda dapat menggunakan data berikut yang menjelaskan kurangnya pembayaran: pendapatan klien, PDB, tinggi klien, jenis kelamin, dan lain-lain. Kausalitas adalah fenomena yang dipahami oleh orang-orang tetapi yang sulit diukur dengan metode statistik. Katakanlah Anda ingin membuat model yang menjelaskan perilaku default pada hipotek. Anda menggunakan jaringan regresi / keputusan / jaringan saraf dan tampaknya prediktor terbaik adalah jenis kelamin dan tinggi badan. Apakah itu berarti bahwa variabel-variabel tersebut mempengaruhi default? Ini mungkin hanya korelasi palsu. Apa itu dan bagaimana mengukurnya dalam konteks SO dan HN? Popularitas dapat didefinisikan sebagai rasa suka atau ketertarikan pada orang tertentu, ide atau, dalam kasus kami, teknologi. Ketika berhadapan dengan masalah hubungan, diperlukan suatu operasionalisasi variabel untuk diselidiki. Dalam konteks analisis ini, itu berarti bahwa kita berurusan dengan deret waktu. Di sini, fenomena yang diperiksa digambarkan sebagai "popularitas teknologi yang diberikan". Saya menyarankan memulai analisis dengan variabel empiris yang tersedia seperti sejumlah pertanyaan.SO hanya menampilkan jumlah tampilan pertanyaan yang diberikan yang dikumpulkan oleh tanggal hari ini, jadi memperoleh variabel ini dari titik waktu yang berbeda menghasilkan nilai yang berbeda. Namun, ada masalah kecil dengan variabel yang tersedia c): jumlah tampilan tampaknya tidak dapat diuraikan. Berdasarkan fakta ini, variabel, meskipun menarik, menyebabkan migrasi ke hasil yang tidak dapat diuraikan. Definisi topik yang terkait dengan teknologi tertentu adalah topik, di mana nama teknologi ini muncul baik dalam judul atau dalam teks. Ketika datang untuk memperoleh data dari Satck Oveflow, mudah untuk mengidentifikasi pertanyaan yang ditugaskan untuk teknologi mana. Proses preprocessing data agak lebih sulit dalam kasus Hacker News. Sebelumnya saya telah menulis bahwa semua variabel harus diukur dalam satuan waktu tertentu, yang mengarah ke masalah berikutnya: bagaimana cara menggabungkan data dari periode tertentu? Saya memutuskan untuk menggunakan jumlah sebagai fungsi agregasi, mis. jumlah pertanyaan yang muncul di hari tertentu. Namun, masalah dengan metrik seperti itu bisa berupa sampel kecil atas dasar yang akan dihitung, yang akan menjadi tidak representatif.
Kelebihan dari solusi ini adalah aspek visual: Anda dapat dengan jelas melihat tren popularitas untuk bahasa pemrograman tertentu dan bagi kebanyakan orang lebih mudah untuk membaca plot daripada hanya tabel kosong. Bagaimana mengatasi masalah memvalidasi hubungan antara dua fenomena? Pendekatan pertama bisa berupa EDA - Exploratory Data Analysis, yang pada dasarnya berarti menghasilkan beberapa plot dan mencoba menunjukkan sesuatu dari mereka. Sisi yang agak menghambat metode untuk menguraikan kausalitas adalah karakter kualitatifnya - tidak ada statistik / tes yang menunjukkan apakah kesimpulan Anda berdasarkan plot adalah benar atau tidak. Kausalitas gabus, yang diusulkan pada tahun 1969, menentukan apakah satu rangkaian waktu berguna dalam meramalkan deret waktu lainnya. Tunggu sebentar, Anda mungkin bertanya, ada jenis kausalitas khusus? Pada dasarnya mengatakan, yup. Catat bahwa pertanyaannya: Apakah satu fenomena adalah penyebab dari yang lain? berbeda dari apa tindakan kausalitas Granger: di sini Anda hanya menggunakan nilai-nilai masa lalu dari variabel tertentu dan mencoba menggunakannya untuk memperkirakan nilai-nilai masa depan dari fenomena lain, seperti membangun model peramalan. Meskipun demikian, mungkin menunjukkan hubungan baik yang dihasilkan dari faktor ketiga yang mempengaruhi dua yang diamati atau bahwa satu variabel benar-benar merupakan efek dari yang lain. Meskipun demikian tidak mungkin untuk mengidentifikasi itu berdasarkan uji kausalitas Granger itu sendiri. Itu berarti bahwa kausalitas Granger tidak dan tidak menunjukkan kausalitas antara dua fenomena.Variabel tentang Stack Overflow berasal dari kueri yang digunakan dalam Stack Exchange Data Explorer yang memungkinkan siapa saja yang tertarik untuk menulis kueri SQL untuk Stack Overflow serta database Stack lainnya. Data yang digunakan dalam analisis ini berkaitan dengan Hacker News berasal dari yang terakhir. Data dikumpulkan dari periode 15 September 2008 - 31 Desember 2017. Bahasa pemrograman atau teknologi yang diperiksa meliputi: C, C ++, C #, Cobol, CSS, D3.js, R, Delphi, Fortran, Hadoop, HTML, Java , Javascript, JQuery, Pascal, Perl, Python, PHP, Ruby, Rust, Scala, Shell, Spark, SQL, Swift, Tensorflow, VBA. Kami hanya akan melihat teknologi yang saya identifikasikan somme semacam kesamaan antara data dari SO dan HN atau yang saya temukan sesuatu yang menarik. Selain itu, plot di sebelah kiri akan menjadi variabel standar sementara yang di sebelah kanan untuk variabel tanpa transformasi. Mari kita lihat beberapa persamaan menarik antara statistik pada SO dan HN untuk teknologi yang berbeda pada plot standar. Yang menarik di sini adalah perubahan dinamis pada 2013: sejak pertengahan tahun ini jumlah pertanyaan di SO tumbuh lebih cepat daripada jumlah poin pada HN . Dalam kasus Hadoop, jumlah pertanyaan kumulatif pada SO tampaknya sama dengan jumlah poin kumulatif pada HN.Namun, dalam kasus ini bahasa pemrograman analog dengan situasi HTML dan Java terlihat: jumlah kumulatif poin mencapai nya Puncaknya antara tahun 2013 dan 2014. Di tahun-tahun berikutnya, merosot menjadi berkurang setengahnya pada akhir tahun 2017.Salah satu properti seri waktu adalah bahwa mereka dapat menjadi nonstasioner yaitu realisasi proses yang diteliti mungkin tidak berasal dari distribusi yang sama dari waktu ke waktu. Menggunakan seri waktu nonstasioner dalam regresi linier dapat menyebabkan regresi palsu yang disebut di mana dependensi dimodelkan antara regresi dan regresi benar-benar tidak ada. Untuk menghindari situasi semacam itu, deret waktu harus diubah menjadi stasioner yang a priori. Sekarang kami tahu apa yang ingin kami gunakan, namun, kami tidak tahu apakah kami dapat menggunakannya. Terakhir namun tidak sedikit, terima kasih banyak! untuk semua komentator dalam topik yang berkaitan dengan analisis ini di Hacker News dan benar-benar siapa pun yang menunjukkan minat pada artikel ini. Juga, banyak terima kasih kepada Jan Bendarz untuk menyarankan metode deteksi tren, Andrzej Drzystek untuk pemikiran pada draft awal dan Maciej PomykaƂa untuk sambutannya yang berharga. Saya ingin mengucapkan terima kasih kepada Piotr Migdal atas saran topik ini, mentoring, ide-idenya penelitian dan pengawasan keseluruhan dari analisis ini. Terima kasih juga kepada semua orang yang memperbaiki teks dengan menangkap kesalahan ketik atau plot yang kurang. (source)