Flamboyan


Laboratorium inovasi untuk ilmu data sumber terbuka

Bagaimana dan mengapa ini terjadi pasti akan menjadi subjek dari buku dan penelitian masa depan, tetapi saat ini kita dihadapkan dengan tantangan eksistensial ketika kita berusaha untuk tetap membuat open source "kerja" untuk semua orang.pelurus, yang sering menjadi sukarelawan, secara rutin "membakar keluar "di bawah tekanan pendukung basis pengguna yang terus berkembang yang kadang-kadang mengambil keberadaan proyek dan pemeliharaan begitu saja. Tahap inovasi sering terjadi di awal proyek: ada beberapa pengguna dan perangkat lunak berubah atau berkembang dengan cepat. Kami mulai melihat model bisnis baru muncul untuk mendanai pemeliharaan OSS, seperti Tidelift, yang telah mulai menjual jenis "asuransi kebijakan "untuk grafik dependensi paket dari kerangka kerja OSS mission-critical seperti React dan AngularJS. Pemahamannya adalah bahwa dana dari polis asuransi ini akan dibayarkan kepada pengelola proyek dalam grafik ketergantungan untuk menyediakan perbaikan bug tepat waktu dan mendukung operasi yang sehat dari proyek tingkat atas. Sebagian besar orang tahu bahwa saya berjuang selama bertahun-tahun untuk mendapatkan dukungan untuk mengembangkan panda; pada akhirnya saya meyakinkan Adam Klein dan Chang She untuk mengambil waktu jauh dari pekerjaan mereka di New York hari kerja keuangan untuk bekerja pada proyek dengan saya pada tahun 2012. Saya memperkirakan antara kami bertiga panda biaya setidaknya $ 500.000 dalam biaya peluang kami tidak mendapatkan upah selama ribuan jam yang kami investasikan dalam proyek ini pada tahun 2011 dan 2012. Jika kami menolak membangun panda kecuali kami mengumpulkan cukup uang untuk membayar biaya hidup sewa dan keluarga kami, proyek tersebut kemungkinan tidak akan menjadi hari ini.Perangkat lunak ilmu data sumber terbuka telah menjadi sangat penting untuk bagaimana dunia menganalisis data dan membangun pembelajaran mesin produksi dan model-model AI.Tidak takut mendapatkan panda dari tanah dan menerbitkan buku saya Python untuk Analisis Data pada tahun 2012, Chang She and I found DataPad, startup yang didanai ventura, dengan tujuan membangun produk data dan kemudian menginvestasikan kembali R & D anggaran kembali ke dalam ekosistem Python. Kami menyerahkan pemeliharaan panda sehari-hari kepada Jeff Reback, Phillip Cloud, dan lainnya, yang telah melakukan pekerjaan luar biasa dalam mengembangkan proyek selama 5 tahun terakhir. Setelah pengalaman membangun panda dan mengembangkan produk DataPad, Saya telah mengumpulkan daftar keluhan dan keluhan terhadap pondasi komputasi panda yang saya rangkum secara tidak sengaja dalam ceramah saya 10 Hal yang Benci tentang panda. Pada pertengahan 2014, di DataPad kami menemukan diri kami bekerja pada masalah rekayasa sistem yang kompleks dalam analisis perusahaan yang akan lebih efektif diselesaikan di perusahaan perangkat lunak perusahaan yang lebih besar. Ketika saya tiba di Cloudera, salah satu tujuan saya adalah untuk membentuk aliansi dengan data besar. dan komunitas database analitik untuk berkolaborasi untuk memecahkan masalah sistem data bersama untuk kepentingan dunia ilmu data. Dua artefak utama waktu saya di Cloudera adalah Ibis, sebuah kerangka kerja komputasi komputasional malas yang diarahkan ke mesin eksekusi ala SQL, dan Apache Arrow, format bingkai data dalam-memori lintas bahasa dan platform pengembangan analitik.Pada pertengahan 2016, menghadapi pasar infrastruktur data besar yang kompetitif dan jalur yang sulit menuju profitabilitas, Cloudera tidak memiliki posisi yang baik untuk membangun tim untuk bergabung dengan saya dalam mengembangkan Apache Arrow dan meningkatkan sistem komputasi untuk ilmu data. Meskipun ada beberapa buah rendah gantung yang jelas untuk mempercepat Python-on-Spark, ROI keseluruhan dari investasi di Arrow kemungkinan akan menjadi beberapa tahun lagi dan dengan demikian dianggap terlalu berisiko untuk membenarkan alokasi anggaran yang besar. Sepanjang waktu ini, saya beruntung untuk terhubung dengan Two Sigma, sebuah perusahaan teknologi keuangan dan manajemen investasi dengan praktik pengembangan OSS yang terus berkembang dan gudang data petascale yang aktif digunakan dengan Apache Spark dan tumpukan data ilmu Python. Saya bergabung dengan Two Sigma pada tahun 2016 sebagai arsitek perangkat lunak dalam kelompok alat analisis, dengan rencana untuk membuat investasi jangka panjang ke depan dalam kinerja dan skalabilitas untuk tumpukan data Python melalui proyek Panah Apache. Proyek ini telah membuat 11 rilis, menumbuhkan lebih dari 130 kontributor, dan membangun kolaborasi yang menarik dengan Apache Spark, dan komunitas GPGPU. Seperti yang telah saya sampaikan secara ekstensif dalam pembicaraan selama beberapa tahun terakhir, kami memecahkan masalah yang sama di Python, R , dan bahasa lain, dan Arrow menyediakan teknologi pemersatu untuk menciptakan infrastruktur komputasi bersama untuk ilmu data. Karena Apache Arrow telah turun temurun selama beberapa tahun terakhir, telah menjadi jelas bahwa masalah yang kami tangani jauh lebih besar dalam lingkupnya daripada kepentingan satu organisasi atau bahkan bahasa pemrograman.
Setelah bertahun-tahun berkolaborasi dengan dan belajar dari Python, R, JVM, Julia, dan komunitas ilmu data lainnya, saya menjadi yakin bahwa dunia ilmu data akan mendapat manfaat dari pustaka komputasi bersama. Saya membayangkan "ilmu runtime sains data" standar publik, yang dapat digunakan untuk memproses frame data asli berbasis Arrow di hampir semua bahasa pemrograman. Berdasarkan pengalaman saya membangun perangkat lunak ilmu data selama 10 tahun terakhir, saya percaya cara yang terbaik untuk melayani dunia ilmu pengetahuan open source adalah dengan membuat organisasi independen, Ursa Labs, yang didedikasikan untuk memajukan sistem komputasi lintas bahasa untuk ilmu data. Tujuan langsung dari organisasi ini adalah untuk merekrut dan mendukung pengembang sistem ilmu data yang merupakan bagian dari ekosistem Apache Arrow yang sedang berkembang.RStudio akan membantu saya dengan sisi administrasi operasi Ursa Labs Saya akan mengelola uang yang dibangkitkan oleh lab, yang terutama akan digunakan untuk membayar gaji dan tunjangan bagi para insinyur penuh waktu di tim Ursa Labs. Sementara itu mungkin aneh bagi beberapa orang bahwa saya, pengembang Python lama, akan bermitra dengan perusahaan yang membangun perangkat lunak untuk programmer R, itu benar-benar masuk akal. Tim Ursa dan saya akan beroperasi sebagai kelompok rekayasa fungsional independen dalam organisasi RStudio dan berkolaborasi dengan anggota RStudio lain terkait pekerjaan pembangunan terkait R.Ini adalah bagian dari mengapa bekerja pada Arrow sangat penting bagi saya; ia menyediakan jalur untuk berbagi kode sistem di luar Python dengan mengaktifkan interoperabilitas gratis di tingkat data. Pada tahun 2016, Hadley Wickham dan saya memiliki kolaborasi singkat untuk membuat format file Feather, sebuah format file biner yang dapat dioperasikan dengan panah berbasis untuk frame data yang dapat digunakan dari Python dan R. Kenyataannya adalah bahwa Hadley dan saya pikir "perang bahasa "Bodoh ketika masalah sebenarnya yang kita pecahkan adalah desain antarmuka pengguna manusia untuk analisis data. Sebagai bagian dari kolaborasi dengan RStudio, Hadley Wickham akan bertindak sebagai penasihat teknis untuk pekerjaan ini untuk memastikan bahwa kita mencari kebutuhan pengguna R . Karena masalah yang kita selesaikan sangat mirip secara struktural, kita telah lama percaya bahwa kolaborasi yang lebih luas antara komunitas harus terjadi. Ini adalah tujuan saya untuk perangkat lunak yang saya bangun untuk bekerja dengan baik untuk programmer R seperti untuk programmer Python. Ketika ia, Hadley, dan saya telah mengenal satu sama lain di acara sains data, saya menemukan bahwa kami berbagi semangat untuk visi jangka panjang untuk memberdayakan ilmuwan data dan membangun hubungan positif dengan komunitas pengguna open source. Kritis, RStudio telah menghindari "perangkap startup" dan berhasil membangun bisnis yang berkelanjutan sambil tetap menginvestasikan sebagian besar sumber daya tekniknya dalam pengembangan open source. Hampir 9 tahun telah berlalu sejak J.J. mulai membangun IDE RStudio, tetapi dalam banyak hal ia dan Hadley dan yang lain merasa seperti baru saja memulai.Selama waktu saya di Two Sigma, saya bekerja menuju visi bersama alat ilmu data bersama Matt Greenwood, yang mengepalai organisasi Teknik Pemodelan perusahaan dan David Palaitis yang mengelola upaya open source Two Sigma. Setelah hampir dua tahun, kami menyadari masalah yang saya sedang mencoba untuk memecahkan dengan Apache Panah lebih besar dari salah satu perusahaan dapat support.Having akses ke masalah nyata dalam ilmu data pada skala besar di Dua Sigma telah menginformasikan dan divalidasi visi saya untuk Ursa, dan kepergian saya untuk memulai Ursa Labs bukan berarti putusnya hubungan saya dengan perusahaan. Kepentingan Two Sigma di Arrow adalah bagian dari komitmen yang lebih besar untuk menciptakan masa depan yang produktif untuk ilmu data, termasuk komitmen untuk komunitas yang dibangun di sekitar Pandas, Ibis, Jupyter, Spark, Mesos dan Tensorflow, antara lain. Dengan bermitra dengan mereka karena saya memulai usaha saya berikutnya, saya bisa menjaga umpan balik terbuka karena mereka bekerja pengadopsi awal dari Arrow software.Two Sigma akan memberikan kontribusi untuk Ursa Labs melalui kontribusi karyawan untuk Ursa Labs proyek seperti panah dan pendanaan eksternal sumber terbuka devs sesuai kebutuhan. Mereka juga akan berkolaborasi dalam memberi saran teknis dan mengumpulkan dukungan di masyarakat. Saya akan melanjutkan pekerjaan saya dengan insinyur inti OSS Two Sigma seperti Jeff Reback, dan Anda dapat menantikan pembicaraan bersama, seperti presentasi mendatang dengan Jeff Reback di PyData. (source)