المقدمة
تخيّل لو أن الذكاء الاصطناعي لم يكتفِ بالإجابة عن أسئلتك نصيًا، بل أصبح قادرًا على فتح المواقع، الضغط على الأزرار، إدخال البيانات في النماذج، وحتى التمرير داخل الصفحات كما لو كان مستخدمًا بشريًا. هذه ليست خيالًا علميًا، بل واقع بدأ مع إطلاق تقنية Gemini 2.5 Computer Use من جوجل.
هذه الميزة الجديدة تمثل نقلة نوعية في عالم الذكاء الاصطناعي، لأنها تجعل النماذج قادرة على التفاعل المباشر مع الإنترنت، بدلًا من الاقتصار على النصوص أو الأوامر البرمجية.
ما هو Gemini 2.5؟
يُعتبر Gemini 2.5 أحدث إصدارات عائلة نماذج الذكاء الاصطناعي من Google DeepMind. وقد تم تطويره ليكون أكثر سرعة ومرونة في التفكير واتخاذ القرار.
يتوافر النموذج بعدة إصدارات، منها:
-
إصدار مخصص للتفكير العميق والمهام المعقدة.
-
إصدار سريع لتنفيذ المهام الفورية.
-
إصدار خفيف للمهام اليومية البسيطة.
أحد أهم المزايا الجديدة في هذه العائلة هو ما يسمى بنمط "التفكير"، حيث يقوم النموذج بالتخطيط لخطواته قبل إعطاء النتيجة، ما يجعله أقرب إلى طريقة تفكير الإنسان.
ما معنى "Computer Use"؟
الميزة الأبرز في Gemini 2.5 هي ما يعرف بـ Computer Use.
ببساطة، هذه التقنية تسمح للنموذج بأن يتصفح الإنترنت مثل المستخدم الحقيقي. فهو لا يعتمد فقط على أكواد جاهزة أو واجهات برمجية، بل يتعامل مع الصفحة نفسها: يرى عناصرها، يحدد الأزرار والحقول، ثم يقرر كيف يتفاعل معها.
آلية عمل الميزة تعتمد على دورة متكررة:
-
يرسل النظام للنموذج صورة لواجهة الموقع.
-
يحلل النموذج محتويات الصفحة ويفهم ما يجب فعله.
-
ينفذ الإجراء مثل الضغط أو الكتابة.
-
يحصل على صورة جديدة للحالة بعد التنفيذ، ويواصل العملية حتى يحقق الهدف المطلوب.
هذه القدرة تجعله مختلفًا تمامًا عن التصفح الآلي التقليدي، لأنه لا يحتاج لبرمجة مسبقة لكل موقع، بل يتصرف كما يتصرف أي إنسان أمام الشاشة.
الفرق بين التصفح التقليدي و Gemini 2.5
التصفح الآلي التقليدي يعتمد على أوامر جاهزة أو أدوات خاصة مثل الروبوتات التي تعمل على مواقع محددة. مشكلته أنه محدود ولا يعمل إلا إذا كانت هناك واجهة برمجية أو أكواد تسمح بذلك.
بينما Gemini 2.5 Computer Use لديه مرونة أكبر، لأنه يتعامل مع الصفحة مباشرة مثلما تفعل أنت. هذا يعني أنه قادر على أداء مهام متنوعة على مواقع مختلفة حتى لو لم يكن هناك دعم برمجي لها.
الاستخدامات العملية لـ Gemini 2.5
هذه الميزة تفتح الباب أمام تطبيقات هائلة، منها:
-
أتمتة الأعمال الروتينية مثل ملء النماذج الحكومية أو البنكية.
-
مساعدة فرق تطوير البرمجيات في اختبار واجهات المستخدم تلقائيًا.
-
البحث عبر عدة مواقع بشكل متسلسل ومنطقي.
-
القيام بمهام التسوق الذكي، مثل مقارنة الأسعار وملء بيانات الشراء.
-
تقديم دعم خاص لذوي الاحتياجات، حيث يمكن للنموذج تصفح الويب بدلًا عنهم.
التحديات التقنية والأخلاقية
رغم الإمكانات المبهرة، هناك تحديات لا يمكن تجاهلها:
-
أحيانًا قد يخطئ النموذج في فهم عناصر الصفحة فيضغط على شيء غير صحيح.
-
هناك مخاطر أمنية، خاصة عند التعامل مع بيانات حساسة مثل الحسابات البنكية.
-
مسألة الخصوصية تبقى حساسة جدًا، إذ يجب التأكد من أن بيانات المستخدمين محمية.
-
قد تُستخدم هذه التقنية لأغراض غير أخلاقية مثل إنشاء حسابات وهمية أو القيام بأعمال مشبوهة.
المستقبل مع Gemini 2.5
المستقبل يبدو واعدًا للغاية. من المتوقع أن تصبح هذه التقنية أكثر دقة مع الوقت، وأن يتم دمجها مع أنظمة التشغيل بحيث لا يقتصر عملها على المتصفح فقط. كما يمكن أن تصبح أساسًا للمساعدات الرقمية الذكية التي لا تكتفي بالرد، بل تنفذ الأوامر وتقوم بالمهام نيابة عنك.
الخاتمة
تقنية Gemini 2.5 Computer Use ليست مجرد خطوة إضافية في مسار تطوير الذكاء الاصطناعي، بل هي قفزة تغير شكل التفاعل مع الإنترنت. نحن أمام بداية حقبة جديدة يصبح فيها الذكاء الاصطناعي أكثر استقلالية، وأقرب في تصرفاته إلى الإنسان.
لكن في الوقت نفسه، لا بد من التعامل معها بحذر، مع وضع معايير صارمة للأمان والأخلاقيات. فالمستقبل الذي نراه اليوم في بداياته قد يكون هو الأساس لعصر جديد من التصفح الذكي الذي يقوم فيه الذكاء الاصطناعي بدور المستخدم الكامل.
