Chatgpt sekarang menafsirkan foto lebih baik daripada kritikus seni dan gabungan penyelidik

Kemampuan pembuatan gambar chatgpt baru-baru ini telah menantang media yang dihasilkan oleh media yang dihasilkan AI sebelumnya. Model GPT-4O yang baru-baru ini diumumkan menunjukkan kemampuan penting untuk menafsirkan gambar dengan akurasi tinggi dan menciptakannya dengan efek virus, seperti yang terinspirasi oleh Studio Ghibli. Bahkan menguasai teks dalam gambar yang dihasilkan AI, yang sebelumnya sulit untuk AI. Dan sekarang, meluncurkan dua model baru yang mampu membedah gambar untuk isyarat untuk mengumpulkan lebih banyak informasi yang bahkan mungkin gagal sekilas.

Openai diumumkan Dua model baru awal pekan ini yang membawa kemampuan berpikir ChatGPT menjadi takik. Model O3 baru, yang Openai sebut sebagai “model penalaran yang paling kuat” meningkat pada interpretasi dan kemampuan persepsi yang ada, menjadi lebih baik dalam “pengkodean, matematika, sains, persepsi visual, dan banyak lagi,” klaim organisasi tersebut. Sementara itu, O4-Mini adalah model yang lebih kecil dan lebih cepat untuk “penalaran hemat biaya” di jalan yang sama. Berita ini mengikuti peluncuran Openai baru-baru ini dari kelas model GPT-4.1, yang membawa konteks pemrosesan yang lebih cepat dan lebih dalam.

Chatgpt sekarang “berpikir dengan gambar”

Dengan perbaikan kemampuan mereka ke akal, kedua model sekarang dapat menggabungkan gambar dalam proses penalaran mereka, yang membuat mereka mampu “berpikir dengan gambar,” Openai menyatakan. Dengan perubahan ini, kedua model dapat mengintegrasikan gambar dalam rantai pemikiran mereka. Melampaui analisis dasar gambar, model O3 dan O4-mini dapat menyelidiki gambar lebih dekat dan bahkan memanipulasinya melalui tindakan seperti memangkas, memperbesar, membalik, atau memperkaya detail untuk mengambil isyarat visual dari gambar yang berpotensi meningkatkan kemampuan chatgpt untuk memberikan solusi.

Memperkenalkan OpenAI O3 dan O4-Mini-model kami yang paling cerdas dan paling cakap hingga saat ini.

Untuk pertama kalinya, model penalaran kami dapat secara agen dapat menggunakan dan menggabungkan setiap alat dalam chatgpt, termasuk pencarian web, python, analisis gambar, interpretasi file, dan pembuatan gambar. pic.twitter.com/rdaqv0x0we

– Openai (@openai) 16 April 2025

Dengan pengumuman tersebut, dikatakan bahwa model memadukan penalaran visual dan tekstual, yang dapat diintegrasikan dengan fitur chatgpt lainnya seperti pencarian web, analisis data, dan pembuatan kode, dan diharapkan menjadi dasar untuk agen AI yang lebih maju dengan analisis multimoda.

Di antara aplikasi praktis lainnya, Anda dapat mengharapkan untuk memasukkan gambar banyak item, grafik aliran seperti itu atau coretan dari catatan tulisan tangan ke gambar objek dunia nyata, dan mengharapkan chatgpt memiliki pemahaman yang lebih dalam untuk output yang lebih baik, bahkan tanpa prompt teks deskriptif. Dengan ini, Openai semakin dekat ke Google Gemini, yang menawarkan kemampuan mengesankan untuk menafsirkan dunia nyata melalui video langsung.

Terlepas dari klaim berani, Openai membatasi akses hanya untuk anggota yang dibayar, mungkin untuk mencegah GPU -nya “meleleh” lagi, karena ia berjuang untuk menjaga permintaan komputasi untuk fitur penalaran baru. Sampai sekarang, model O3, O4-Mini, dan O4-mini akan tersedia secara eksklusif untuk anggota Chatgpt Plus, Pro, dan tim sementara pengguna tingkat perusahaan dan pendidikan mendapatkannya dalam waktu satu minggu. Sementara itu, pengguna gratis akan dapat membatasi akses ke O4-Mini ketika mereka memilih tombol “Think” di bilah prompt.