Flamboyan


Data Scientist? Programmer? Apakah Mereka Saling Eksklusif?

Dalam ceramahnya, Wickham pendukung bahwa, tidak seperti GUI, menggunakan kode menyediakan reproduktifitas, data yang asal, dan kemampuan untuk melacak perubahan sehingga para ilmuwan data yang memiliki kemampuan untuk melihat bagaimana analisis data telah berkembang. Sebagai pencipta ggplot2, itu tidak mengherankan bahwa Wickham juga pendukung penggunaan visualisasi dan model bersama-sama untuk membantu para ilmuwan data yang menemukan sinyal yang nyata di dalam data mereka. Domino data Sains Bidang posting Catatan blog ini memberikan highlights dari Hadley Wickham ACM Chicago bicara, "Anda Bisa tidak Do data Science di GUI". Posting blog ini juga menyediakan klip dari video asli dan mengikuti lisensi Creative Commons berafiliasi dengan recording.Benefits video asli yang sangat penting karena ia mendefinisikan ilmu data, sesuai dengan slide dari pembicaraan ini, sebagai "proses dimana data menjadi pemahaman, pengetahuan, dan wawasan". Hadley Wickham, Kepala Ilmuwan di RStudio, disajikan sebuah pembicaraan ACM Chicago, "Anda tidak Bisa Do data Sains dalam GUI", yang tertutup kerja ilmiah data yang mengalir dan alat-alat. Dia juga menyarankan memanfaatkan bahasa pemrograman untuk manfaat yang mencakup reproduktifitas, data yang asal, dan kemampuan untuk melihat bagaimana analisis data telah berkembang dari waktu ke waktu. Misalnya, Wickham pendukung penggunaan visualisasi dan model untuk dukungan para ilmuwan data yang menemukan sinyal yang nyata di dalam data mereka.Selama pembicaraan, Wickham menunjukkan "bahwa visualisasi pertama Anda melihat akan selalu mengungkapkan kesalahan kualitas data, dan jika tidak tidak mengungkapkan kesalahan kualitas data, yang hanya mans Anda belum menemukan satu belum." Namun, ia juga menunjukkan bahwa visualisasi tidak skala sangat baik dan menyarankan menggunakan model untuk visualisasi. Atau mengambil pertanyaan dan "berusaha untuk membuatnya sehingga cukup tepat bahwa Anda bisa menjawabnya secara kuantitatif." Wickham juga pendukung penggunaan visualisasi karena mungkin mengejutkan ilmuwan data atau memimpin mereka untuk melihat sesuatu yang mereka tidak mengharapkan untuk melihat. Sebelum menyelam ke menjawab pertanyaan, "mengapa program?" porsi ceramahnya, Wickham membahas dua "mesin utama" bahwa para ilmuwan bantuan data yang mengerti apa yang sedang terjadi dalam kumpulan data: visualisasi dan model.
Dalam bagian ini pembicaraannya, Wickham referensi proyek di GitHub di mana orang dapat melihat serangkaian komit, menelusuri pada komit, dan melihat "di mana analisis data sekarang tetapi Anda dapat melihat bagaimana hal itu berkembang dari waktu ke waktu." Dia kontras ini dengan Excel yang menyediakan kesempatan bagi orang untuk sengaja mengacak data mereka tanpa mengetahui asal atau memiliki pilihan rollback. Wickham menganjurkan menggunakan bahasa pemrograman, bukan GUI, untuk melakukan ilmu Data karena menyediakan kesempatan untuk mereproduksi pekerjaan, memahami asal data, dan kemampuan untuk melihat bagaimana analisis data telah berkembang dari waktu ke waktu. Juga, pemahaman data yang asalnya memungkinkan reproduksi karena memungkinkan ilmuwan data ke "tayangan ulang bahwa kode dengan data baru nanti, dan mendapatkan hasil yang diperbarui Anda dapat menggunakan". Sementara alat ini disebutkan dalam humor, kode teks dan mudah untuk cut-and-paste teks, termasuk pesan error ke stack overflow untuk menemukan solution.In tertentu, ia berpendapat bahwa menjadi seorang ilmuwan data dan menjadi programmer tidak saling eksklusif dan yang menggunakan bahasa pemrograman membantu para ilmuwan data yang menuju pemahaman sinyal nyata dalam data mereka. Sebagai Wickham mendefinisikan ilmu data sebagai "proses dimana data menjadi pemahaman, pengetahuan, dan wawasan", ia membela menggunakan alat ilmu data dimana nilai yang diperoleh dari iterasi, kejutan, reproduktifitas, dan skalabilitas. Sementara posting blog ini hanya mencakup beberapa highlights kunci dari Wickham ACM Chicago bicara, video lengkap tersedia untuk dilihat.Domino data Sains Bidang Catatan memberikan highlights dari penelitian ilmu data, tren, teknik, dan banyak lagi, bahwa para ilmuwan data pendukung dan pemimpin ilmu Data mempercepat pekerjaan atau karier mereka. Jika Anda tertarik Anda kerja ilmiah data yang dibahas dalam seri blog ini, silahkan kirim email di writeforuscom. (source)